GPT-5 tropieza en la generación de pruebas matemáticas, requiriendo supervisión humana constante

Matemáticos de la Universidad de Luxemburgo probaron a GPT-5 en la extensión de un teorema cualitativo de cuarto momento a tasas de convergencia explícitas en el marco Malliavin-Stein, revelando errores críticos que demandan corrección humana constante en el experimento de septiembre de 2025.

Última actualización 20252025-09-09T10:46:24Z

El modelo de IA más reciente de OpenAI, GPT-5, ha demostrado limitaciones significativas en la generación de pruebas matemáticas originales, según un estudio realizado por matemáticos de la Universidad de Luxemburgo. En un experimento llevado a cabo en septiembre de 2025, los investigadores evaluaron si GPT-5 podía extender un teorema cualitativo de cuarto momento para incluir tasas de convergencia explícitas en el marco Malliavin-Stein, un problema previamente no abordado en la teoría de probabilidad.

El estudio fue motivado por afirmaciones previas de que GPT-5 había resuelto un problema de optimización convexa. Sin embargo, los resultados mostraron que la IA cometió errores críticos, como pasar por alto propiedades de covarianza fácilmente derivables de la documentación proporcionada. Los investigadores describieron la experiencia como trabajar con un 'asistente junior' que requiere verificación constante, destacando la necesidad de correcciones humanas continuas para evitar fallos graves.

Esta revelación plantea interrogantes sobre la dependencia excesiva de la IA en la investigación matemática, especialmente entre estudiantes de doctorado, ya que podría limitar el desarrollo de habilidades fundamentales al propagar errores. Aunque GPT-5 representa un avance notable en capacidades, los expertos enfatizan que, en este momento, la supervisión humana experta sigue siendo indispensable. En la industria de la IA en general, estos hallazgos impulsan debates sobre las limitaciones reales de los modelos en razonamiento matemático avanzado, a pesar de las afirmaciones de 'nivel experto'.

GPT-5 tropieza en la generación de pruebas matemáticas, requiriendo supervisión humana constante

Podría gustar