La empresa de telecomunicaciones Veon, el operador móvil Beeline Kazakhstan, el Centro de Supercomputación de Barcelona y el grupo de presión GSMA dijeron el miércoles (15 de mayo) que trabajarían juntos para cerrar una «brecha lingüística de IA» para los idiomas subrepresentados.
Los grandes modelos de lenguaje que impulsan los ‘bots’ como chatGPT a menudo dependen de grandes cantidades de datos en línea, como libros digitales, sitios web, artículos y blogs para aprender a generar respuestas similares a las humanas. Pero los datos y recursos en algunos idiomas son limitados.
«De los casi 7.000 idiomas que se hablan en todo el mundo, sólo siete se consideran idiomas de alto recurso en el mundo digital: inglés, español, francés, mandarín, árabe, alemán y japonés», dijeron los grupos en una declaración conjunta.
Colaborarán en el desarrollo de herramientas y documentación de modelos lingüísticos en idiomas poco representados, incluidos los que se hablan en los países donde opera Veon: Pakistán, Ucrania, Bangladesh, Kazajstán, Uzbekistán y Kirguistán.
Otro idioma es el catalán, hablado por alrededor de 10 millones de personas, según el comunicado.
«La falta de recursos en otros idiomas da como resultado una brecha en el lenguaje de la IA que conduce a una experiencia de usuario subóptima en las aplicaciones de IA, profundiza el sesgo en los modelos de IA y corre el riesgo de profundizar la brecha digital en las tecnologías de IA», agregaron.