Nvidia lanza enorme conjunto de datos abiertos para impulsar la IA en lenguas europeas
Nvidia presenta 'Granary', un enorme conjunto de datos abierto para mejorar la traducción automática en 25 lenguas europeas.
Última actualización
Según informa SiliconANGLE, solo una pequeña fracción de las más de 7.000 lenguas del mundo cuenta con soporte en modelos de inteligencia artificial. Para abordar esto, Nvidia ha anunciado un nuevo conjunto de datos masivo listo para IA y modelos que apoyan el desarrollo de traducciones automáticas de alta calidad para lenguas europeas. El nuevo dataset, llamado Granary, es un corpus abierto de audio multilingüe que incluye más de un millón de horas de grabaciones, 650.000 horas de datos para reconocimiento de voz y 350.000 horas de traducción de audio. El equipo de IA de voz de Nvidia colaboró con investigadores de la Universidad Carnegie Mellon y la Fondazione Bruno Kessler para procesar audios no etiquetados y datos públicos de voz, convirtiéndolos en información útil para el entrenamiento de IA. Granary abarca 25 lenguas europeas, cubriendo casi todos los idiomas oficiales de la Unión Europea, además de ruso y ucraniano, e incluye también idiomas con datos limitados como croata, estonio y maltés.
Podría gustar
- Fallo en el Control Aéreo de Nueva Zelanda Atribuido a Problema de Transferencia de Datos
- iOS 26 traerá carga inalámbrica Qi2 de 25W a la línea iPhone 16
- Apple lanza la octava beta de macOS Tahoe para desarrolladores
- Meta continúa reclutando talento de IA de Apple y añade dos ejecutivos más
- FFmpeg 8 Introduce Subtitulado Automático con Reconocimiento de Voz Integrado
- Google Fotos añade edición con IA conversacional
- La espectroscopía X de superresolución revela la dinámica de los electrones de valencia
- Ikea lanza un plato para albóndigas en su nueva colección de diseñador