Internett er i ferd med å spise seg selv
Det begynner med et blogginnlegg skrevet av ChatGPT, en produktbeskrivelse generert av Copilot, en nyhetsoppsummering laget av Gemini. Ingen av dem er skrevet av mennesker – men alle havner på nettet, indekseres av søkemotorer og kan bli en del av treningsdataene til neste generasjons KI-modeller.
Dette er ikke en fremtidsvisjon. Det skjer nå, i stor skala.
En ny studie publisert på arXiv (2602.16065) tar for seg hva som skjer når generative KI-modeller trener rekursivt på data forurenset av tidligere KI-generert materiale. Fenomenet har fått et navn i forskningsmiljøet: model collapse. Og ifølge forskningen er det ikke et spørsmål om om det skjer – men hvor raskt og hvor hardt.
Et selvforsterkende problem med eksponentiell vekst
Tall fra OECDs AI Incidents and Hazard Monitor viser at medieregistrerte hendelser knyttet til KI-generert innhold økte fra rundt 50 per måned tidlig i 2020 til nesten 500 per måned i januar 2026 – en tidobling på seks år, der de siste tolv månedene alene sto for en dobling.
Samtidig viser OECD-data at andelen virksomheter som bruker KI steg fra 8,7 prosent i 2023 til 20,2 prosent i 2025. Mer bruk betyr mer KI-generert innhold, som igjen betyr mer kontaminering av fremtidige treningsdata.
En Europol-rapport, referert i en rekke analyser, anslår at opptil 90 prosent av alt innhold på nett kan være KI-generert innen 2026 – riktignok et fremoverskuende ekspertestimat snarere enn et målt faktum, men retningen er klar.
En ny arXiv-preprint (2602.16136) introduserte i februar 2026 begrepet Retrieval Collapse: KI-innhold forurenser ikke bare treningsdata, men også websøk. Med 67 prosent syntetisk innhold i søkepoolene viste analysen at over 80 prosent av SEO-eksponerte resultater var KI-genererte, noe som ytterligere eroderer tilgangen på autentisk menneskelig tekst.

Shumailov-studien: Fra Wikipedia til nonsens på ni steg
Den mest siterte empiriske dokumentasjonen på model collapse kommer fra Shumailov et al., publisert i Nature i 2024. Forskerne trente språkmodeller iterativt på Wikipedia-tekst, der hver ny generasjon kun fikk tilgang til tekst produsert av den foregående modellen.
Resultatene var nedslående: allerede i de tidlige generasjonene begynte sjeldne ord, konsepter og stilistiske varianter å forsvinne. Innen generasjon ni produserte modellene meningsløs tekst – blant annet ved å blande fullstendig urelaterte konsepter som arkitektur og biologi. Det som hadde startet som en fungerende språkmodell, var blitt et kakofonisk ekko av seg selv.
Teorietisk analyse fra NYU (2024) bekrefter funnet matematisk: siden hver treningsrunde reduserer variansen i modellens parameterfordeling, er prosessen uunngåelig uten korrektiver. Sjeldne mønstre – som er avgjørende for at en modell skal håndtere kanttilfeller, minoritetsspråk og komplekse emner – forsvinner med matematisk sikkerhet.
Noema Magazine har beskrevet fenomenet som at nettet «spiser seg selv» – en gradvis fortynning av høykvalitetsdata og en forsterking av feil i nichedomener.
«Modellen begynte å blande arkitektur med biologi. Det som startet som Wikipedia-kunnskap, ble meningsløs tekst innen ni generasjoner.» — Shumailov et al., Nature, 2024

Norsk er særlig sårbart
For norsk språkteknologi er dette spesielt alvorlig. Norsk snakkes av rundt fem millioner mennesker, og det autentiske digitale tekstmaterialet på norsk er begrenset sammenlignet med storspråk som engelsk, spansk eller mandarin.
Norske språkmodeller – utviklet blant annet ved Nasjonalbiblioteket og Universitetet i Oslo – er avhengige av at det norske tekstkorpuset faktisk reflekterer ekte menneskelig språkbruk. Dersom en stadig større andel av norsk nettekst er KI-generert, risikerer fremtidige norske modeller å trenes på et gradvis mer homogent og kunstig språk.
Konsekvensene kan inkludere:
- Tap av dialektrikdom: KI-tekst skrives typisk på standardisert bokmål eller nynorsk, og dialektale varianter risikerer å forsvinne fra treningsdata
- Stilistisk homogenisering: Litterær og stilistisk variasjon – essayistikk, lokalhistorie, debattinnlegg – erstattes av glatt, nøytralt KI-prosa
- Forsterking av bias: Model collapse forsterker statistiske gjennomsnitt og underrepresenterer minoritetsstemmer
Tall fra en norsk ungdomsundersøkelse viser at 70 prosent av unge mellom 16 og 24 år brukte KI til skolearbeid i 2025. Etterspørselen etter gode norskspråklige modeller er stor – men grunnlaget for å bygge dem er under press.
Simula Research Laboratory, som ifølge Forskningsrådets 2025-evaluering rangerer høyest i Norge på IKT-impact, arbeider med multimodal læring og datametoder som kan adressere noe av problemet. Instituttet kombinerer tekst, bilder og lyd i treningsopplegg og samarbeider med kliniske partnere om å bygge unike datasett.
Kan problemet løses?
Forskningsmiljøet er ikke entydig pessimistisk. ArXiv-artikkelen (2602.16065) søker å etablere teoretiske garantier for modellkvalitet selv under kontaminerte treningsforhold, og peker på at kollaps kan begrenses – men kun med bevisste mottiltak.
Hva hjelper ifølge forskningen?
Datakuratering og proveniens: OpenAI og Google har allerede begynt å prioritere lisensiering av menneskeprodusert data fra før 2022 – en klar erkjennelse av at «rent» datatilfang er et konkurransefortrinn. Sporbarhet om dataenes opphav er avgjørende.
Automatisk deteksjon: Verktøy som GPTZero rapporterer 98 prosent nøyaktighet på ren KI-tekst og over 90 prosent på parafrasert KI-tekst, ifølge selskapets egne tall. DependencyAI, som analyserer syntaktiske strukturer via spaCy og LightGBM, oppnådde 88,85 prosent nøyaktighet og 88,94 F1-score på tvers av syv ulike tekstgeneratorer i M4GT-Bench-datasettene. Disse metodene kan brukes til å rense treningsdatasett for syntetisk innhold.
Syntetiske data med varsomhet: Paradoksalt nok kan syntetisk data brukes til å bøte på datamangel – men kun dersom det gjøres kontrollert, med verifisering og klar merking av opphav. Google DeepMinds GDR-metode (Generalized Data Refinement) filtrerer toksiske og unøyaktige data fra webskrap og er en lovende tilnærming for lavressursspråk som norsk.
Nasjonalbibliotekets rolle: Norske institusjoner som Nasjonalbiblioteket arbeider allerede med digitalisering og bevaring av autentiske, daterte tekstkorpus. Dette arbeidet er ikke bare kulturelt verdifullt – det er teknologisk strategisk.
«Akkumulering av ekte data, syntetisk verifikasjon og provenienssporing er de tre pilarene for å unngå kollaps» — sammendrag av anbefalinger fra Shumailov et al. og arXiv 2602.16065
Hva betyr dette for norske aktører?
Norske virksomheter som bruker eller utvikler KI med norsk språkforståelse bør ta disse implikasjonene på alvor:
Datakvalitet er viktigere enn datamengde. En stor mengde nettskrapt norsk tekst er ikke nødvendigvis bedre hvis en høy andel er KI-generert. Ifølge en Ahrefs-studie av 600 000 nettsider er korrelasjonen mellom andel KI-innhold og Google-rangering bare 0,011 – noe som antyder at også søkemotorer favoriserer menneskeskrevet innhold.
Sporbarhet er en konkurransefordel. Treningsdata bør dokumenteres med tanke på opphav og tidspunkt. Uten dette er det umulig å vite hvor forurenset datasettet er – og umulig å rette opp problemet over tid.
Regulatorisk press øker. EUs AI-forordning stiller krav til transparens om treningsdata. Gjennom EØS-avtalen vil dette også gjelde norske aktører. Virksomheter som allerede har datadokumentasjon på plass, vil ha et fortrinn.
Invester i norskspråklige korpus. Støtte til Nasjonalbibliotekets digitaliseringsarbeid, Simulas forskning og lignende initiativer er ikke bare kulturpolitikk – det er infrastruktur for fremtidig norsk KI-konkurransekraft.
Model collapse er ikke en teoretisk trussel. Det er en prosess som allerede er i gang, dokumentert i noen av verdens fremste vitenskapelige tidsskrifter. Spørsmålet er ikke om norsk språkteknologi vil merke det – men om vi handler raskt nok til å dempe konsekvensene.
