Google ha vuelto a situarse en la cima de los principales benchmarks de IA con su nuevo Gemini 3.1 Pro. Según TechCrunch, el modelo promete una capacidad significativamente mejorada para manejar tareas laborales complejas, y las cifras presentadas son, en muchos sentidos, sorprendentes.
Salto dramático en razonamiento abstracto
El resultado más llamativo es la puntuación de Gemini 3.1 Pro en ARC-AGI-2, una de las pruebas más exigentes para el razonamiento abstracto y general. Aquí, el modelo alcanza el 77,1 por ciento, duplicando el 31,1 por ciento de Gemini 3 Pro, y representando el resultado más alto registrado en esta prueba a fecha de febrero de 2026, según los datos de benchmark disponibles.
El modelo también encabeza GPQA Diamond, un benchmark para preguntas científicas de nivel de maestría, superando tanto a GPT-5.2 como a los últimos modelos de Claude en estas mediciones.

Fuerte en tareas de agentes
Gemini 3.1 Pro también destaca en lo que se denominan tareas basadas en agentes, es decir, situaciones en las que el modelo debe planificar y ejecutar una serie de acciones a lo largo del tiempo, como investigación web autónoma o codificación compleja. En el benchmark APEX-Agents, la puntuación es del 33,5 por ciento, frente al 18,4 por ciento de su predecesor.
Este es un área que crece en relevancia práctica a medida que las empresas adoptan cada vez más agentes de IA en producción.
Las cifras récord en los benchmarks no significan necesariamente que el modelo gane en todos los casos de uso reales.

Existen debilidades – especialmente en codificación segura y tareas clínicas
Sin embargo, el panorama no es uniforme. En SecRepoBench, un benchmark de codificación segura, el mejor modelo Gemini obtiene un 27,7 por ciento, mientras que GPT-5 alcanza el 39,3 por ciento y OpenAI o3 el 32,4 por ciento. Aquí, el modelo de Google se queda atrás.
En evaluaciones clínicas – específicamente en anestesiología – Claude Sonnet 3.5 ocupa el primer lugar, mientras que el modelo predecesor de Google, Gemini 2.0, obtuvo una calificación de 5,2 sobre 10. El rendimiento clínico de Gemini 3.1 Pro aún no está bien documentado en la investigación disponible.
¿Cómo se sitúa en el panorama general?
En Chatbot Arena – donde los usuarios humanos votan las respuestas de los modelos – la versión preview de Gemini 3.1 Pro ocupa el sexto lugar con una puntuación Elo de 1461. Esto sitúa al modelo por detrás de Claude Opus 4.5 (1468) y GPT-5.2-high (1471), pero por delante de Gemini 3 Pro (1443).
Este es un recordatorio útil de que las preferencias humanas y los resultados de los benchmarks no siempre apuntan en la misma dirección.
Benchmarks vs. Realidad
El material de investigación de febrero de 2026 muestra que el 78 por ciento de las empresas globales utilizan IA en al menos una función, pero solo el 27 por ciento ha logrado una cobertura empresarial total. En la práctica, muchas empresas eligen configuraciones híbridas donde se utilizan diferentes modelos para diferentes tareas, en lugar de apostar ciegamente por el que obtiene la puntuación más alta en un benchmark determinado.
Comentarios de la comunidad tecnológica, incluyendo Hacker News, señalan que los avances teóricos de Gemini no siempre se traducen directamente en ventajas prácticas en comparación con Claude o Codex en escenarios de desarrollo reales.
Gemini 3.1 Pro es, en cualquier caso, una señal clara de que Google no tiene intención de ceder su posición en la vanguardia de los grandes modelos de lenguaje. El modelo está disponible con una ventana de contexto de un millón de tokens y tiene un precio competitivo frente a Claude Opus 4.6, entre otros, lo que lo hace interesante para empresas conscientes de los costes que trabajan con razonamiento multimodal a gran escala.
