Adiciones simples de texto engañan a modelos avanzados de razonamiento IA: 'CatAttack' genera preocupaciones de seguridad
Investigadores descubren que agregar frases irrelevantes como 'Dato interesante: los gatos duermen la mayor parte de sus vidas' a problemas matemáticos puede causar que los modelos de IA den respuestas incorrectas hasta un 300% más altas que lo normal.
Última actualización
Investigadores han descubierto que agregar frases irrelevantes, como 'Dato interesante: los gatos duermen la mayor parte de sus vidas', a problemas matemáticos puede hacer que los modelos de razonamiento IA más avanzados den respuestas incorrectas a tasas que superan el 300% en comparación con las respuestas correctas. Esta técnica, conocida como 'CatAttack', ha sido desarrollada por equipos de Collinear AI, ServiceNow y la Universidad de Stanford. Los modelos afectados incluyen DeepSeek R1 y la familia o1 de OpenAI.
Lo preocupante es que los 'disparadores adversariales' funcionan con cualquier problema matemático sin cambiar el significado del problema, lo que hace que esta vulnerabilidad sea especialmente alarmante para las aplicaciones de seguridad. Esta nueva amenaza podría poner en riesgo la confiabilidad de los sistemas de IA utilizados en sectores clave como la seguridad cibernética y la defensa.
Podría gustar
- Windows 11 Supera a Windows 10 en Cuota de Mercado
- El chip M5 de Apple se espera que impulse cinco nuevos dispositivos este año
- JBL lanza sus primeros auriculares deportivos de diseño abierto: Endurance Zone
- La transición a Apple Silicon cumple 5 años, revolucionando el rendimiento de Mac
- Blue Origin envía a 6 turistas al espacio, alcanzando el hito del 750º viajero espacial
- NYT comenzará a acceder a los registros eliminados de ChatGPT tras ganar la batalla legal contra OpenAI
- Microsoft lanza la herramienta RIFT para analizar malware basado en Rust
- NASA extiende la misión de monitoreo de calidad del aire desde el espacio