Adiciones simples de texto engañan a modelos avanzados de razonamiento IA: 'CatAttack' genera preocupaciones de seguridad
Investigadores descubren que agregar frases irrelevantes como 'Dato interesante: los gatos duermen la mayor parte de sus vidas' a problemas matemáticos puede causar que los modelos de IA den respuestas incorrectas hasta un 300% más altas que lo normal.
Última actualización
Investigadores han descubierto que agregar frases irrelevantes, como 'Dato interesante: los gatos duermen la mayor parte de sus vidas', a problemas matemáticos puede hacer que los modelos de razonamiento IA más avanzados den respuestas incorrectas a tasas que superan el 300% en comparación con las respuestas correctas. Esta técnica, conocida como 'CatAttack', ha sido desarrollada por equipos de Collinear AI, ServiceNow y la Universidad de Stanford. Los modelos afectados incluyen DeepSeek R1 y la familia o1 de OpenAI.
Lo preocupante es que los 'disparadores adversariales' funcionan con cualquier problema matemático sin cambiar el significado del problema, lo que hace que esta vulnerabilidad sea especialmente alarmante para las aplicaciones de seguridad. Esta nueva amenaza podría poner en riesgo la confiabilidad de los sistemas de IA utilizados en sectores clave como la seguridad cibernética y la defensa.
Podría gustar
- Windows 11 Supera a Windows 10 en Cuota de Mercado
- El chip M5 de Apple se espera que impulse cinco nuevos dispositivos este año
- Exalumnos de Harvard lanzan gafas inteligentes con IA que registran todas tus conversaciones
- Tim Cook asumirá la supervisión directa del equipo de diseño de Apple
- Pentágono exige a periodistas comprometerse a no obtener información no autorizada y amenaza con revocar credenciales
- Apple lanzará su primer iPhone plegable en 2026 con diseño tipo libro
- La misión SPHEREx de la NASA publica los primeros datos del mapa del cielo completo
- Google lanza Mixboard: un laboratorio creativo con IA para ideas visuales