Adiciones simples de texto engañan a modelos avanzados de razonamiento IA: 'CatAttack' genera preocupaciones de seguridad
Investigadores descubren que agregar frases irrelevantes como 'Dato interesante: los gatos duermen la mayor parte de sus vidas' a problemas matemáticos puede causar que los modelos de IA den respuestas incorrectas hasta un 300% más altas que lo normal.
Última actualización
Investigadores han descubierto que agregar frases irrelevantes, como 'Dato interesante: los gatos duermen la mayor parte de sus vidas', a problemas matemáticos puede hacer que los modelos de razonamiento IA más avanzados den respuestas incorrectas a tasas que superan el 300% en comparación con las respuestas correctas. Esta técnica, conocida como 'CatAttack', ha sido desarrollada por equipos de Collinear AI, ServiceNow y la Universidad de Stanford. Los modelos afectados incluyen DeepSeek R1 y la familia o1 de OpenAI.
Lo preocupante es que los 'disparadores adversariales' funcionan con cualquier problema matemático sin cambiar el significado del problema, lo que hace que esta vulnerabilidad sea especialmente alarmante para las aplicaciones de seguridad. Esta nueva amenaza podría poner en riesgo la confiabilidad de los sistemas de IA utilizados en sectores clave como la seguridad cibernética y la defensa.
Podría gustar
- Windows 11 Supera a Windows 10 en Cuota de Mercado
- El chip M5 de Apple se espera que impulse cinco nuevos dispositivos este año
- Dictionary.com 'devasta' a los usuarios eliminando listas de palabras guardadas y funciones pagadas
- Bill Gates financia premio de 1 millón de dólares para usar IA en la investigación del Alzheimer
- Apple demanda a Jon Prosser por filtración de iOS 26
- Nuevo marco para abordar un desafío clave en la investigación de energía de fusión
- EE. UU. reconsiderará el sistema de lotería de visas H-1B, podría favorecer a los solicitantes calificados
- NotebookLM lanza 'Cuadernos Destacados' con contenido de The Economist, The Atlantic y más