Nvidia lanza enorme conjunto de datos abiertos para impulsar la IA en lenguas europeas
Nvidia presenta 'Granary', un enorme conjunto de datos abierto para mejorar la traducción automática en 25 lenguas europeas.
Última actualización
Según informa SiliconANGLE, solo una pequeña fracción de las más de 7.000 lenguas del mundo cuenta con soporte en modelos de inteligencia artificial. Para abordar esto, Nvidia ha anunciado un nuevo conjunto de datos masivo listo para IA y modelos que apoyan el desarrollo de traducciones automáticas de alta calidad para lenguas europeas. El nuevo dataset, llamado Granary, es un corpus abierto de audio multilingüe que incluye más de un millón de horas de grabaciones, 650.000 horas de datos para reconocimiento de voz y 350.000 horas de traducción de audio. El equipo de IA de voz de Nvidia colaboró con investigadores de la Universidad Carnegie Mellon y la Fondazione Bruno Kessler para procesar audios no etiquetados y datos públicos de voz, convirtiéndolos en información útil para el entrenamiento de IA. Granary abarca 25 lenguas europeas, cubriendo casi todos los idiomas oficiales de la Unión Europea, además de ruso y ucraniano, e incluye también idiomas con datos limitados como croata, estonio y maltés.
Podría gustar
- Fallo en el Control Aéreo de Nueva Zelanda Atribuido a Problema de Transferencia de Datos
- iOS 26 traerá carga inalámbrica Qi2 de 25W a la línea iPhone 16
- El mercado de eSIM crecerá de forma explosiva hacia 2030 y amenaza los ingresos por roaming de los operadores
- Steam retira juego tras robo de más de 150.000 dólares a jugadores mediante malware
- Gemini reemplazará al Asistente de Google en Android con características mejoradas de privacidad
- Herramienta Flipper Zero Desata Temores de Nueva Ola de Robos de Autos
- Dropbox descontinuará su servicio de gestor de contraseñas para octubre
- SpaceX Dragon Completa con Éxito una Prueba de Impulso del ISS