CÓMO FUNCIONA
Según Meta, Hokkien se conoce como un «idioma de bajos recursos», lo que significa que hay un suministro insuficiente de datos de capacitación disponibles para el idioma en comparación con el español o el inglés.
Además, hay relativamente pocos traductores humanos de inglés a Hokkien, lo que dificulta la recopilación y anotación de datos.
Para superar estos desafíos, los investigadores de Meta utilizaron texto escrito en mandarín, que es similar a Hokkien, como intermediario entre el inglés y Hokkien al entrenar su IA. El equipo también trabajó en estrecha colaboración con los oradores de Hokkien para garantizar que las traducciones sean correctas.
“Nuestro equipo primero tradujo el habla en inglés o Hokkien al texto en mandarín, y luego lo tradujo a Hokkien o inglés, tanto con anotadores humanos como automáticamente”, dijo el investigador de Meta, Juan Pino.
«Luego agregaron las oraciones emparejadas a los datos utilizados para entrenar el modelo de IA».
El equipo también usó sonidos acústicos para generar formas de onda, enseñando al modelo de IA a reconocer las entonaciones del habla de Hokkien.
El modelo es actualmente un trabajo en progreso y puede traducir solo una oración completa a la vez, con el objetivo final de la traducción simultánea.
Los investigadores harán que su modelo, código y datos de referencia estén disponibles gratuitamente para permitir que otros desarrollen su trabajo, dijo Meta.
Se pone a disposición del público una versión de demostración del traductor. aquí.