AI-systemer er nå i stand til å konkurrere med gullmedaljister på matematikkolympiaden — men når problemene er virkelig nye og upubliserte, viser det seg at gapet til menneskelige eksperter er langt større enn benchmarktallene tilsier.
First Proof: Ti problemer ingen har sett før
First Proof-utfordringen ble lansert 5. februar 2026 og består av ti upubliserte matematikkproblemer på forskningsnivå, hentet fra felt som algebraisk kombinatorikk og representasjonsteori. Løsningene ble offentliggjort 8. dager senere, den 13. februar, ifølge OpenAI-bloggen.
Formålet er eksplisitt å teste AI-systemer på problemer som ikke kan ha sneket seg inn i treningsdataene — en kjent svakhet ved eksisterende benchmarks der modellene i praksis kan gjenkjenne løsningsmønstre fra tidligere sett materiale.
AI-modellene kan imitere kjente resultater, men vrir og forvrenger dem når problemene er genuint nye — Lauren Williams, matematiker

OpenAIs påstander — med forbehold
OpenAI la frem sitt innsendte materiale 14. februar 2026, dagen etter at løsningene ble publisert. Selskapet hevder at modellen med høy grad av sikkerhet har produsert korrekte bevis for fem av de ti problemene: nummer 4, 5, 6, 9 og 10. Problem 9 og 10 skal ha blitt løst i en tidlig fase, mens 4 og 6 kom til under videre trening.
Det er imidlertid viktig å understreke at de resterende bidragene fortsatt er til ekspertvurdering, og at det per 21. februar 2026 ikke finnes noen fullstendig offentlig resultatliste over hvem som har løst hva. Prosjektet inviterer til innleveringer via emneknaggen #1stProof og en Zulip-kanal driftet av ICARM, og krever transkripsjon fra før løsningene ble sluppet for å regnes som troverdige resultater.

Stor forskjell mellom konkurranse- og forskningsmatematikk
Resultatene fra First Proof bør ses i sammenheng med det bredere bildet av AI og matematikk i 2026. På standardiserte konkurranseproblemer er ytelsen imponerende: DeepMinds Aletheia scorer 95,1 prosent på IMO-ProofBench Advanced, og GPT-5.2 skal ha løst alle 15 problemer i AIME 2025 korrekt, ifølge tilgjengelige benchmarkdata.
Men når problemene er genuint ukjente, faller prestasjonene dramatisk. På Humanity's Last Exam — som er designet for å motvirke memorering — ligger toppmodellene under 40 prosent. Eksperter sitert av Phys.org påpeker at AI-systemer mangler kreativ dybde og evnen til å gjøre de originale sprangene som kjennetegner ekte matematisk forskning. En særlig bekymring er det som kalles «proof by intimidation»: modellene kan produsere lange, teknisk imponerende bevis som i realiteten inneholder feil.
En lettere pipeline klarte problem 4 — og mer
Interessant nok melder en separat, lettvekts AI-pipeline å ha løst problem 4 fra First Proof fullstendig — verifisert av matematikkeksperter — i tillegg til samtlige problemer i de relaterte ICCM-settene 1 og 2. Dette viser at konkurransen ikke er begrenset til de store laboratoriene, men at det fortsatt er stor usikkerhet knyttet til hvilke systemer som faktisk presterer best.
Hva sier matematikerne?
Harvard-matematiker Lauren Williams, som er blant dem som har observert AI-systemenes ytelse på forskningsproblemer, skal ifølge kildematerialet mene at modellene er gode til å gjenskape kjente resultater, men at de mislykkes systematisk når problemstillingene er genuint nye. Denne observasjonen underbygges av at de fleste modellene i First Proof ikke kom i nærheten av å løse alle ti problemene.
Fremover planlegges First Proof som et løpende benchmark, der nye runder vil fortsette å teste om AI-systemer faktisk avanserer på den typen matematikk som skjer ved frontlinjen av forskning — ikke bare på problemer som allerede er forstått og kategorisert.
