Nvidia lanza enorme conjunto de datos abiertos para impulsar la IA en lenguas europeas

Nvidia presenta 'Granary', un enorme conjunto de datos abierto para mejorar la traducción automática en 25 lenguas europeas.

Última actualización 20252025-08-25T07:08:08Z

Según informa SiliconANGLE, solo una pequeña fracción de las más de 7.000 lenguas del mundo cuenta con soporte en modelos de inteligencia artificial. Para abordar esto, Nvidia ha anunciado un nuevo conjunto de datos masivo listo para IA y modelos que apoyan el desarrollo de traducciones automáticas de alta calidad para lenguas europeas. El nuevo dataset, llamado Granary, es un corpus abierto de audio multilingüe que incluye más de un millón de horas de grabaciones, 650.000 horas de datos para reconocimiento de voz y 350.000 horas de traducción de audio. El equipo de IA de voz de Nvidia colaboró con investigadores de la Universidad Carnegie Mellon y la Fondazione Bruno Kessler para procesar audios no etiquetados y datos públicos de voz, convirtiéndolos en información útil para el entrenamiento de IA. Granary abarca 25 lenguas europeas, cubriendo casi todos los idiomas oficiales de la Unión Europea, además de ruso y ucraniano, e incluye también idiomas con datos limitados como croata, estonio y maltés.

Nvidia lanza enorme conjunto de datos abiertos para impulsar la IA en lenguas europeas

Podría gustar