Los sistemas de IA son ahora capaces de competir con medallistas de oro en las olimpiadas de matemáticas, pero cuando los problemas son verdaderamente nuevos e inéditos, resulta que la brecha con los expertos humanos es mucho mayor de lo que sugieren las cifras de los puntos de referencia (benchmarks).

First Proof: Diez problemas que nadie ha visto antes

El desafío First Proof se lanzó el 5 de febrero de 2026 y consta de diez problemas matemáticos de nivel de investigación no publicados, extraídos de campos como la combinatoria algebraica y la teoría de representaciones. Las soluciones se hicieron públicas 8 días después, el 13 de febrero, según el blog de OpenAI.

El propósito es explícitamente poner a prueba los sistemas de IA con problemas que no hayan podido filtrarse en los datos de entrenamiento, una debilidad conocida de los benchmarks existentes donde los modelos pueden, en la práctica, reconocer patrones de solución de material visto anteriormente.

Los modelos de IA pueden imitar resultados conocidos, pero los tuercen y distorsionan cuando los problemas son genuinamente nuevos — Lauren Williams, matemática
La IA resuelve la mitad de los problemas matemáticos más difíciles del mundo, pero los expertos no están impresionados

Las afirmaciones de OpenAI, con reservas

OpenAI presentó su material enviado el 14 de febrero de 2026, el día después de que se publicaran las soluciones. La empresa afirma que el modelo ha producido, con un alto grado de certeza, demostraciones correctas para cinco de los diez problemas: los números 4, 5, 6, 9 y 10. Se informa que los problemas 9 y 10 se resolvieron en una fase temprana, mientras que el 4 y el 6 se lograron durante un entrenamiento posterior.

Sin embargo, es importante subrayar que las contribuciones restantes aún están bajo revisión de expertos y que, a fecha de 21 de febrero de 2026, no existe una lista pública completa de resultados sobre quién ha resuelto qué. El proyecto invita a realizar envíos a través de la etiqueta #1stProof y un canal de Zulip gestionado por el ICARM, y requiere una transcripción anterior a la publicación de las soluciones para que los resultados se consideren creíbles.

La IA resuelve la mitad de los problemas matemáticos más difíciles del mundo, pero los expertos no están impresionados

Gran diferencia entre las matemáticas de competición y las de investigación

Los resultados de First Proof deben verse en el contexto del panorama general de la IA y las matemáticas en 2026. En problemas de competición estandarizados, el rendimiento es impresionante: Aletheia de DeepMind obtiene un 95,1 por ciento en IMO-ProofBench Advanced, y se informa que GPT-5.2 resolvió correctamente los 15 problemas de AIME 2025, según los datos de referencia disponibles.

95,1 %
Aletheia en IMO-ProofBench
5 de 10
OpenAI en First Proof

Pero cuando los problemas son genuinamente desconocidos, el rendimiento cae drásticamente. En Humanity's Last Exam, diseñado para contrarrestar la memorización, los modelos punteros se sitúan por debajo del 40 por ciento. Expertos citados por Phys.org señalan que los sistemas de IA carecen de profundidad creativa y de la capacidad de realizar los saltos originales que caracterizan a la verdadera investigación matemática. Una preocupación especial es lo que se denomina "demostración por intimidación": los modelos pueden producir demostraciones largas y técnicamente impresionantes que, en realidad, contienen errores.

Un pipeline más ligero logró el problema 4 y más

Curiosamente, un pipeline de IA ligero e independiente informa haber resuelto completamente el problema 4 de First Proof —verificado por expertos en matemáticas— además de todos los problemas de los conjuntos relacionados ICCM 1 y 2. Esto demuestra que la competencia no se limita a los grandes laboratorios, sino que todavía existe una gran incertidumbre sobre qué sistemas funcionan realmente mejor.

La IA vence a los humanos en matemáticas de competición, pero la investigación es un juego diferente

¿Qué dicen los matemáticos?

La matemática de Harvard Lauren Williams, que se encuentra entre quienes han observado el rendimiento de los sistemas de IA en problemas de investigación, opina, según el material de origen, que los modelos son buenos recreando resultados conocidos, pero que fallan sistemáticamente cuando los planteamientos son genuinamente nuevos. Esta observación se ve respaldada por el hecho de que la mayoría de los modelos en First Proof no estuvieron cerca de resolver los diez problemas.

En el futuro, First Proof está planeado como un benchmark continuo, donde nuevas rondas seguirán probando si los sistemas de IA realmente avanzan en el tipo de matemáticas que ocurre en la frontera de la investigación, no solo en problemas que ya han sido comprendidos y categorizados.