Página de inicio :Juega con la tecnología, mira el futuro a tu manera

La IA generativa pasa por alto vastos conocimientos humanos debido a la brecha digital, revela estudio

Los modelos de IA generativa carecen de acceso a gran parte del conocimiento humano no digitalizado o poco representado en línea, según un estudio reciente.

Última actualización

Un estudio reciente revela que los modelos de IA generativa entrenados con datos de Internet no tienen exposición a vastos dominios del conocimiento humano que permanecen sin digitalizar o están subrepresentados en línea.

Por ejemplo, el inglés domina Common Crawl con un 44% del contenido, mientras que el hindi representa solo el 0,2% a pesar de ser hablado por el 7,5% de la población mundial, y el tamil alcanza apenas el 0,04% a pesar de contar con 86 millones de hablantes en todo el mundo. Aproximadamente el 97% de las lenguas del mundo se clasifican como de "bajos recursos" en computación.

Un estudio de 2020 encontró que el 88% de las lenguas enfrenta un abandono tan severo en las tecnologías de IA que ponerse al día requeriría un esfuerzo hercúleo. Investigaciones sobre plantas medicinales en Norteamérica, el noroeste de la Amazonia y Nueva Guinea encontraron que más del 75% de los 12.495 usos distintos de especies vegetales eran únicos de un solo idioma local.

Los modelos de lenguaje de gran tamaño amplifican patrones dominantes mediante lo que los investigadores llaman "amplificación de modos", lo que provoca que la información de lenguas minoritarias o de bajos recursos quede aún más subrepresentada en los sistemas de IA.