GPT-5 tropieza en la generación de pruebas matemáticas, requiriendo supervisión humana constante
Matemáticos de la Universidad de Luxemburgo probaron a GPT-5 en la extensión de un teorema cualitativo de cuarto momento a tasas de convergencia explícitas en el marco Malliavin-Stein, revelando errores críticos que demandan corrección humana constante en el experimento de septiembre de 2025.
Última actualización
El modelo de IA más reciente de OpenAI, GPT-5, ha demostrado limitaciones significativas en la generación de pruebas matemáticas originales, según un estudio realizado por matemáticos de la Universidad de Luxemburgo. En un experimento llevado a cabo en septiembre de 2025, los investigadores evaluaron si GPT-5 podía extender un teorema cualitativo de cuarto momento para incluir tasas de convergencia explícitas en el marco Malliavin-Stein, un problema previamente no abordado en la teoría de probabilidad.
El estudio fue motivado por afirmaciones previas de que GPT-5 había resuelto un problema de optimización convexa. Sin embargo, los resultados mostraron que la IA cometió errores críticos, como pasar por alto propiedades de covarianza fácilmente derivables de la documentación proporcionada. Los investigadores describieron la experiencia como trabajar con un 'asistente junior' que requiere verificación constante, destacando la necesidad de correcciones humanas continuas para evitar fallos graves.
Esta revelación plantea interrogantes sobre la dependencia excesiva de la IA en la investigación matemática, especialmente entre estudiantes de doctorado, ya que podría limitar el desarrollo de habilidades fundamentales al propagar errores. Aunque GPT-5 representa un avance notable en capacidades, los expertos enfatizan que, en este momento, la supervisión humana experta sigue siendo indispensable. En la industria de la IA en general, estos hallazgos impulsan debates sobre las limitaciones reales de los modelos en razonamiento matemático avanzado, a pesar de las afirmaciones de 'nivel experto'.
Podría gustar
- Congreso y Trump buscan un compromiso sobre el cohete SLS, con posible recorte de la etapa superior
- El módem C1 de Apple muestra velocidades comparables al de Qualcomm en nuevas pruebas del iPhone 16e
- Strava demanda a Garmin por infracción de patentes y busca bloquear la venta de sus productos
- YouTuber pliega el Galaxy Z Fold 7 200,000 veces en una prueba extrema de durabilidad
- La Tierra Atrapa Calor a un Ritmo Más Rápido de lo Predicho, Según Estudio
- Microsoft se asocia con la Universidad de Maryland para un nuevo centro de investigación cuántica
- El acuerdo de búsqueda de 20 mil millones de dólares entre Google y Apple se mantiene tras fallo judicial
- SFMTA se apresura a cerrar sitio viral de seguimiento de multas de estacionamiento