Adiciones simples de texto engañan a modelos avanzados de razonamiento IA: 'CatAttack' genera preocupaciones de seguridad

Investigadores descubren que agregar frases irrelevantes como 'Dato interesante: los gatos duermen la mayor parte de sus vidas' a problemas matemáticos puede causar que los modelos de IA den respuestas incorrectas hasta un 300% más altas que lo normal.

Última actualización 20252025-07-06T03:22:11Z

Investigadores han descubierto que agregar frases irrelevantes, como 'Dato interesante: los gatos duermen la mayor parte de sus vidas', a problemas matemáticos puede hacer que los modelos de razonamiento IA más avanzados den respuestas incorrectas a tasas que superan el 300% en comparación con las respuestas correctas. Esta técnica, conocida como 'CatAttack', ha sido desarrollada por equipos de Collinear AI, ServiceNow y la Universidad de Stanford. Los modelos afectados incluyen DeepSeek R1 y la familia o1 de OpenAI.

Lo preocupante es que los 'disparadores adversariales' funcionan con cualquier problema matemático sin cambiar el significado del problema, lo que hace que esta vulnerabilidad sea especialmente alarmante para las aplicaciones de seguridad. Esta nueva amenaza podría poner en riesgo la confiabilidad de los sistemas de IA utilizados en sectores clave como la seguridad cibernética y la defensa.

Adiciones simples de texto engañan a modelos avanzados de razonamiento IA: 'CatAttack' genera preocupaciones de seguridad

Podría gustar