Google har nok en gang gått til topps på sentrale AI-benchmarker med sin nye Gemini 3.1 Pro. Ifølge TechCrunch lover modellen betydelig forbedret evne til å håndtere komplekse arbeidsoppgaver – og tallene som presenteres er på mange måter slående.
Dramatisk hopp i abstrakt resonnering
Det mest oppsiktsvekkende resultatet er Gemini 3.1 Pros score på ARC-AGI-2, en av de mest krevende testene for abstrakt og generell resonnering. Her oppnår modellen 77,1 prosent – en fordobling av Gemini 3 Pros 31,1 prosent, og det høyeste registrerte resultatet på denne testen per februar 2026, ifølge tilgjengelige benchmarkdata.
Modellen topper også GPQA Diamond, en benchmark for vitenskapsspørsmål på masternivå, og overgår både GPT-5.2 og de nyeste Claude-modellene på disse målingene.

Sterk på agentoppgaver
Gemini 3.1 Pro hevder seg også sterkt på det som kalles agentbaserte oppgaver – altså situasjoner der modellen må planlegge og utføre en rekke handlinger over tid, for eksempel autonom nettforskning eller kompleks koding. På APEX-Agents-benchmarken er scoren 33,5 prosent, mot 18,4 prosent for forgjengeren.
Dette er et område som vokser i praktisk relevans ettersom bedrifter i større grad tar i bruk AI-agenter i produksjon.
Rekordtall på benchmarker betyr ikke nødvendigvis at modellen vinner i alle virkelige brukssituasjoner.

Svakheter finnes – særlig på sikker koding og kliniske oppgaver
Bildet er likevel ikke entydig. På SecRepoBench, en benchmark for sikker koding, scorer den beste Gemini-modellen 27,7 prosent, mens GPT-5 oppnår 39,3 prosent og OpenAI o3 32,4 prosent. Her henger altså Google-modellen etter.
I kliniske vurderinger – nærmere bestemt innen anestesiologi – rangerer Claude Sonnet 3.5 øverst, mens Googles forgjengermodell Gemini 2.0 fikk karakteren 5,2 av 10. Gemini 3.1 Pros kliniske ytelse er ennå ikke godt dokumentert i tilgjengelig forskning.
Hvordan plasserer den seg i det store bildet?
På Chatbot Arena – der menneskelige brukere stemmer over modellenes svar – rangerer Gemini 3.1 Pro preview på sjetteplass med en Elo-score på 1461. Det plasserer modellen bak Claude Opus 4.5 (1468) og GPT-5.2-high (1471), men foran Gemini 3 Pro (1443).
Dette er en nyttig påminnelse om at menneskelige preferanser og benchmarkresultater ikke alltid peker i samme retning.
Benchmarker vs. virkelighet
Forskningsmateriale fra februar 2026 viser at 78 prosent av globale selskaper bruker AI i minst én funksjon, men kun 27 prosent har oppnådd full virksomhetsdekning. I praksis velger mange bedrifter hybridoppsett der ulike modeller brukes til ulike oppgaver – fremfor å satse blindt på den som scorer høyest på en gitt benchmark.
Kommentarer fra teknologimiljøet, blant annet på Hacker News, peker på at Geminis teoretiske fremskritt ikke alltid oversettes direkte til praktiske fordeler sammenlignet med Claude eller Codex i reelle utviklingsscenarioer.
Gemini 3.1 Pro er uansett et tydelig signal om at Google ikke har tenkt å gi fra seg posisjonen i fremste rekke av store språkmodeller. Modellen er tilgjengelig med et kontekstvindu på én million tokens og er priset konkurransedyktig mot blant annet Claude Opus 4.6, noe som gjør den interessant for kostnadsbevisste virksomheter som jobber med multimodal resonnering i stor skala.
