Internet está a punto de devorarse a sí mismo
Comienza con una publicación de blog escrita por ChatGPT, una descripción de producto generada por Copilot, un resumen de noticias creado por Gemini. Ninguno de ellos está escrito por humanos, pero todos terminan en la red, son indexados por los motores de búsqueda y pueden convertirse en parte de los datos de entrenamiento para los modelos de IA de próxima generación.
Esto no es una visión de futuro. Está sucediendo ahora, a gran escala.
Un nuevo estudio publicado en arXiv (2602.16065) aborda lo que sucede cuando los modelos de IA generativa entrenan de forma recursiva con datos contaminados por material generado previamente por IA. El fenómeno ha recibido un nombre en la comunidad investigadora: model collapse (colapso del modelo). Y según la investigación, no es una cuestión de si sucede, sino de qué tan rápido y qué tan fuerte.
Un problema que se retroalimenta con crecimiento exponencial
Las cifras del AI Incidents and Hazard Monitor de la OCDE muestran que los incidentes registrados en los medios relacionados con contenido generado por IA aumentaron de unos 50 por mes a principios de 2020 a casi 500 por mes en enero de 2026: un aumento de diez veces en seis años, donde solo los últimos doce meses representaron una duplicación.
Al mismo tiempo, los datos de la OCDE muestran que la proporción de empresas que utilizan IA aumentó del 8,7 por ciento en 2023 al 20,2 por ciento en 2025. Más uso significa más contenido generado por IA, lo que a su vez significa más contaminación de los futuros datos de entrenamiento.
Un informe de Europol, citado en numerosos análisis, estima que hasta el 90 por ciento de todo el contenido en línea podría ser generado por IA para 2026; es cierto que se trata de una estimación experta prospectiva más que de un hecho medido, pero la dirección es clara.
Un nuevo preprint de arXiv (2602.16136) introdujo en febrero de 2026 el término Retrieval Collapse (Colapso de Recuperación): el contenido de IA no solo contamina los datos de entrenamiento, sino también las búsquedas web. Con un 67 por ciento de contenido sintético en los grupos de búsqueda, el análisis mostró que más del 80 por ciento de los resultados expuestos al SEO eran generados por IA, lo que erosiona aún más el acceso a texto humano auténtico.

El estudio de Shumailov: De Wikipedia al disparate en nueve pasos
La documentación empírica más citada sobre el colapso del modelo proviene de Shumailov et al., publicada en Nature en 2024. Los investigadores entrenaron modelos de lenguaje de forma iterativa con texto de Wikipedia, donde cada nueva generación solo tenía acceso al texto producido por el modelo anterior.
Los resultados fueron desalentadores: ya en las primeras generaciones, las palabras raras, los conceptos y las variantes estilísticas comenzaron a desaparecer. Para la generación nueve, los modelos producían texto sin sentido, incluyendo la mezcla de conceptos completamente no relacionados como la arquitectura y la biología. Lo que había comenzado como un modelo de lenguaje funcional se había convertido en un eco cacofónico de sí mismo.
El análisis teórico de la NYU (2024) confirma el hallazgo matemáticamente: dado que cada ronda de entrenamiento reduce la varianza en la distribución de parámetros del modelo, el proceso es inevitable sin correctivos. Los patrones raros —que son cruciales para que un modelo maneje casos extremos, idiomas minoritarios y temas complejos— desaparecen con certeza matemática.
Noema Magazine ha descrito el fenómeno como que la red "se devora a sí misma": una dilución gradual de los datos de alta calidad y una amplificación de los errores en dominios de nicho.
«El modelo comenzó a mezclar la arquitectura con la biología. Lo que comenzó como conocimiento de Wikipedia se convirtió en texto sin sentido en nueve generaciones». — Shumailov et al., Nature, 2024

El noruego es particularmente vulnerable
Para la tecnología del lenguaje noruego, esto es especialmente grave. El noruego es hablado por unos cinco millones de personas, y el material de texto digital auténtico en noruego es limitado en comparación con idiomas mayoritarios como el inglés, el español o el mandarín.
Los modelos de lenguaje noruegos —desarrollados, entre otros, por la Biblioteca Nacional y la Universidad de Oslo— dependen de que el corpus de texto noruego refleje realmente el uso del lenguaje humano real. Si una proporción cada vez mayor del texto web noruego es generado por IA, los futuros modelos noruegos corren el riesgo de entrenarse en un lenguaje gradualmente más homogéneo y artificial.
Las consecuencias pueden incluir:
- Pérdida de riqueza dialectal: El texto de IA se escribe típicamente en Bokmål o Nynorsk estandarizado, y las variantes dialectales corren el riesgo de desaparecer de los datos de entrenamiento
- Homogeneización estilística: La variación literaria y estilística —ensayos, historia local, artículos de debate— es reemplazada por una prosa de IA fluida y neutral
- Amplificación de sesgos: El colapso del modelo refuerza los promedios estadísticos y subrepresenta las voces minoritarias
Las cifras de una encuesta juvenil noruega muestran que el 70 por ciento de los jóvenes entre 16 y 24 años utilizaron IA para el trabajo escolar en 2025. La demanda de buenos modelos en lengua noruega es grande, pero la base para construirlos está bajo presión.
Simula Research Laboratory, que según la evaluación de 2025 del Consejo de Investigación ocupa el primer lugar en Noruega en impacto de las TIC, trabaja en aprendizaje multimodal y métodos de datos que pueden abordar parte del problema. El instituto combina texto, imágenes y sonido en programas de entrenamiento y colabora con socios clínicos para construir conjuntos de datos únicos.
¿Se puede solucionar el problema?
La comunidad investigadora no es unánimemente pesimista. El artículo de arXiv (2602.16065) busca establecer garantías teóricas para la calidad del modelo incluso bajo condiciones de entrenamiento contaminadas, señalando que el colapso puede limitarse, pero solo con contramedidas conscientes.
¿Qué ayuda según la investigación?
Curación de datos y procedencia: OpenAI y Google ya han comenzado a priorizar la licencia de datos producidos por humanos de antes de 2022, un reconocimiento claro de que el acceso a datos "limpios" es una ventaja competitiva. La trazabilidad sobre el origen de los datos es crucial.
Detección automática: Herramientas como GPTZero reportan un 98 por ciento de precisión en texto puro de IA y más del 90 por ciento en texto de IA parafraseado, según las propias cifras de la empresa. DependencyAI, que analiza estructuras sintácticas a través de spaCy y LightGBM, logró un 88,85 por ciento de precisión y una puntuación F1 de 88,94 en siete generadores de texto diferentes en los conjuntos de datos M4GT-Bench. Estos métodos pueden usarse para limpiar los conjuntos de datos de entrenamiento de contenido sintético.
Datos sintéticos con precaución: Paradójicamente, los datos sintéticos pueden usarse para remediar la falta de datos, pero solo si se hace de manera controlada, con verificación y marcado claro del origen. El método GDR (Generalized Data Refinement) de Google DeepMind filtra datos tóxicos e inexactos de los raspados web y es un enfoque prometedor para idiomas de bajos recursos como el noruego.
El papel de la Biblioteca Nacional: Instituciones noruegas como la Biblioteca Nacional ya están trabajando en la digitalización y preservación de corpus de texto auténticos y fechados. Este trabajo no solo es valioso culturalmente, sino que es estratégicamente tecnológico.
«La acumulación de datos reales, la verificación sintética y el seguimiento de la procedencia son los tres pilares para evitar el colapso» — resumen de recomendaciones de Shumailov et al. y arXiv 2602.16065
¿Qué significa esto para los actores noruegos?
Las empresas noruegas que utilizan o desarrollan IA con comprensión del idioma noruego deben tomarse en serio estas implicaciones:
La calidad de los datos es más importante que la cantidad de datos. Una gran cantidad de texto noruego raspado de la web no es necesariamente mejor si una alta proporción es generada por IA. Según un estudio de Ahrefs de 600.000 sitios web, la correlación entre la proporción de contenido de IA y el ranking de Google es de solo 0,011, lo que sugiere que los motores de búsqueda también favorecen el contenido escrito por humanos.
La trazabilidad es una ventaja competitiva. Los datos de entrenamiento deben documentarse teniendo en cuenta el origen y el momento. Sin esto, es imposible saber qué tan contaminado está el conjunto de datos e imposible corregir el problema con el tiempo.
La presión regulatoria aumenta. El Reglamento de IA de la UE establece requisitos de transparencia sobre los datos de entrenamiento. A través del acuerdo del EEE, esto también se aplicará a los actores noruegos. Las empresas que ya tengan documentación de datos en su lugar tendrán una ventaja.
Invertir en corpus en lengua noruega. El apoyo al trabajo de digitalización de la Biblioteca Nacional, la investigación de Simula e iniciativas similares no es solo política cultural: es infraestructura para la competitividad futura de la IA noruega.
El colapso del modelo no es una amenaza teórica. Es un proceso que ya está en marcha, documentado en algunas de las revistas científicas más importantes del mundo. La pregunta no es si la tecnología del lenguaje noruego lo notará, sino si actuamos lo suficientemente rápido como para mitigar las consecuencias."
