Estudio Advierte sobre el 'Enfermedad Cerebral' en LLMs Provocada por 'Datos Basura'

Investigadores advierten que entrenar LLMs con 'datos basura' puede inducir efectos similares a la 'enfermedad cerebral', provocando un declive cognitivo duradero.

Última actualización 20252025-10-24T01:51:12Z

Un grupo de investigadores ha alertado sobre los peligros de entrenar modelos de lenguaje grande (LLM) con 'datos basura', lo que podría causar efectos similares a la 'enfermedad cerebral'. A primera vista, parece evidente que entrenar un LLM con datos de 'alta calidad' llevará a un mejor rendimiento que alimentarlo con cualquier 'basura' de baja calidad. Sin embargo, un estudio reciente, publicado como preimpresión este mes por investigadores de Texas A&M, la Universidad de Texas y la Universidad de Purdue, está tratando de cuantificar cuánto pueden los datos de baja calidad afectar a un LLM, provocando un declive cognitivo comparable al 'enfermedad cerebral' en humanos. Los investigadores se inspiraron en estudios previos que muestran cómo los humanos que consumen grandes volúmenes de contenido en línea trivial y poco desafiante pueden desarrollar problemas de atención, memoria y cognición social. A partir de esto, los investigadores proponen lo que llaman la 'hipótesis de la enfermedad cerebral en LLMs', que establece que 'el entrenamiento continuo en textos web basura induce un declive cognitivo duradero en los LLMs.'

Estudio Advierte sobre el 'Enfermedad Cerebral' en LLMs Provocada por 'Datos Basura'

Podría gustar