agosto 7, 2024

La Curva de Aprendizaje, parte 8: creando conversaciones desde Japón para el mundo Samsung

La Curva de Aprendizaje, parte 8: creando conversaciones desde Japón para el mundo

Samsung Research en Japón es parte de una serie sobre las personas y las innovaciones detrás de la democratización de la IA móvil

Mientras Samsung continúa siendo pionero en experiencias premium de IA móvil, visitamos los centros de investigación de Samsung en todo el mundo para conocer cómo Galaxy AI permite que más usuarios maximicen su potencial. Galaxy AI ahora admite 16 idiomas, por lo que más personas pueden ampliar sus capacidades lingüísticas, incluso sin conexión, gracias a la traducción en el dispositivo con funciones como Traducción simultánea, Intérprete, Asistente de notas y Asistente de navegación. Pero ¿qué implica el desarrollo del lenguaje de IA? La última vez visitamos Polonia para comprender cómo los países europeos colaboran para lograr sus objetivos. Esta vez, estamos en Japón para ver cómo los desarrolladores se adaptan constantemente a los nuevos escenarios y casos de uso.

El Instituto de Investigación y Desarrollo de Japón (SRJ) se creó para ser un centro de I+D centrado en hardware, como electrodomésticos y pantallas. Con la demanda de innovación en IA aumentando en todo el mundo, SRJ en Yokohama también ha estado operando un laboratorio de desarrollo de software para crear la función de Traducción Simultánea de Galaxy AI que, desde finales del año pasado, traduce automáticamente las llamadas de voz en tiempo real.

«La función de Traducción Simultánea es especialmente útil en los viajes, como en el caso de quienes acudan a los Juegos Olímpicos de este año en París», afirma Takayuki Akasako, director de Inteligencia Artificial de SRJ. «Actualmente estamos desarrollando un programa de reconocimiento de voz para personas que hacen turismo y van a ver los Juegos Olímpicos de París y entrenando el programa de reconocimiento de voz para aprender sobre los Juegos y las ubicaciones de los estadios para París 2024».

Comprensión del contexto en el reconocimiento de voz

Para aquellos que ya utilizan las funciones de traducción de Galaxy AI, estas funcionalidades pueden parecer muy útiles. Pero los desarrolladores que las han creado saben que poder comunicarse en el extranjero no es algo que se pueda dar por sentado.

Una cosa que el equipo notó fue que hay más homónimos en japonés que en otros idiomas. Por ejemplo, ‘palillos’ (Hashi,箸) y ‘puente’ (Hashi,橋) son relativamente fáciles de distinguir debido a la diferencia de entonación, pero palabras como ‘turismo’ (Kankō,観光), ‘costumbres’ (Kankō,慣行), ‘público’ (Kōkyō,公共) y ‘prosperidad’ (Kōkyō,好況) deben interpretarse según el contexto.

La Curva de Aprendizaje, parte 8: creando conversaciones desde Japón para el mundo Samsung

«La interpretación se vuelve más difícil cuando el contexto es ambiguo, como en los casos de nombres de sitios y personas, nombres propios, dialectos y números», dice Akasako. «Por lo tanto, para mejorar la precisión del reconocimiento de voz, se necesitan muchos datos».

«Siempre buscamos formas de ajustar el modelo de IA para eventos y momentos clave, a tiempo», añade Akasako. «Con muchas combinaciones nuevas de nombres de lugares y actividades, es importante que el contexto quede claro cuando las personas usan Galaxy AI».

La Curva de Aprendizaje, parte 8: creando conversaciones desde Japón para el mundo Samsung

Desafíos en la recopilación de datos eficientes

Si bien es importante reconocer los tipos de datos necesarios, recopilar los datos en sí mismo es un desafío aparte.

Anteriormente, el equipo de SRJ utilizaba datos grabados por personas para entrenar el motor de reconocimiento de voz para la función de Traducción Simultánea, lo que no nos llevaba a una recopilación de datos suficiente.

Samsung Gauss, el modelo de lenguaje grande (LLM, por sus siglas en inglés) de la compañía, utiliza guiones para estructurar oraciones con palabras o expresiones que son relevantes para cada escenario. Los datos recopilados con Samsung Gauss no solo los graban las personas, sino que también los generan datos de síntesis de voz text-to-speech (TTS), por medio de los cuales las personas realizan la verificación de calidad final. Con este método, el equipo ha observado una mejora significativa en la eficiencia de la recopilación de datos.

«Cada vez que se identifica y resuelve un problema, la precisión del reconocimiento de voz mejora significativamente», explica Akasako. «Independientemente de dónde se encuentren las personas, nuestro objetivo es conectarlas entre sí, y las herramientas impulsadas por Galaxy AI garantizarán una comunicación más divertida y eficiente».