Google Gemini 3, la IA más inteligente del mundo que no sabe decir la hora
Idir Ouhab Meskine
20 de noviembre de 2025

Vale, hablemos de Gemini 3. Google soltó esta bomba el 18 de noviembre diciendo que es su “modelo más inteligente” hasta la fecha. Y ¿sabéis qué? Por una vez, puede que no estén diciendo una barbaridad.
Llevo 48 horas metido en los datos —no en las diapositivas de marketing de Google, sino en verificaciones independientes de Artificial Analysis, LMArena y varios investigadores que han estado pinchando este modelo con un palo. Esto es lo que dicen realmente los números, por qué tus deberes de mates van a ser mucho más fáciles y por qué aun así no deberías dejar que este bicho lleve tu negocio sin supervisión.
Los datos que me hicieron parpadear fuerte
Empiezo con la cifra que realmente importa: 1.501 Elo. Gemini 3 es el primer modelo de la historia en romper la barrera de 1.500 en las pruebas de preferencia humana a ciegas de LMArena. No los “confía en mí, bro” de Google, sino comparaciones reales donde humanos eligen la mejor respuesta sin saber qué modelo la generó.
Artificial Analysis (los que sí testean estas cosas de forma independiente) le han dado un Índice de Inteligencia de 73, frente al 70 de GPT-5.1 y el tristísimo 60 del Gemini anterior. Ha pasado del puesto 9 al 1 a nivel global. Que cale esto: Google ha pasado de “actor secundario” a “campeón” en una sola versión.
Pero aquí viene lo loco. Las mejoras en razonamiento matemático no son solo buenas: son una auténtica salvajada:
- →MathArena Apex: de 0,5 % a 23,4 %. Una mejora de 46x
- →ARC-AGI-2 (razonamiento abstracto): 45,1 % en modo “Deep Think” vs el patético 17,6 % de GPT-5.1
- →AIME 2025: 100 % con ejecución de código (aunque necesitó escribir programas de verificación, no puro razonamiento)
Alberto Romero, de The Algorithmic Bridge, dice que este tipo de “saltos del triple en puntos porcentuales” ya no se ve en benchmarks maduros. Y tiene razón: esto es territorio nuevo.
La mentira de la ventana de contexto (lo siento Google, tengo pruebas)
El equipo de marketing de Google está gritando “¡VENTANA DE CONTEXTO DE 1 MILLÓN DE TOKENS!” como si viniera la segunda venida de Cristo. Muy bien, salvo que Skywork AI decidió comprobarlo y… madre mía.
Le metieron un estudio climático de 150 páginas. Para la página 100 ya mezclaba datos de regiones completamente distintas. Luego probaron con 80 formularios de feedback de clientes: se saltó TODAS las quejas de retrasos en envíos porque estaban en el último 20 % del texto.
El rendimiento real: en el benchmark MRCR v2 a 1M tokens, 26,3 %. Sí, supera el bochornoso 16,4 % de Gemini 2.5, pero venga ya Google, no es el salto revolucionario que estáis vendiendo.
La verdad: funciona muy bien hasta 128K tokens. Más allá de eso, estás jugando a la ruleta rusa con tus datos.
Prepárate para sacar la cartera
Hablemos de pasta, porque Google desde luego quiere la tuya:
- →2,00 $ por millón de tokens de entrada
- →12,00 $ por millón de tokens de salida
- →Y al pasar de 200K tokens: 4 $ entrada, 18 $ salida
Un 12 % más caro que Gemini 2.5 Pro. Por comparar, Claude Sonnet 4.5 cobra 3/15 $.
Ejemplo real: procesar una tarea de 350K tokens de entrada + 15K de salida cuesta 1,67 $ por solicitud. ¿Cien veces al día? Entre 50 y 70 $ al mes. Lo inteligente es usar su context caching a 0,20 $ por millón: cargas tu código una vez y lo reutilizas barato.
Artificial Analysis dice que sigue siendo la “mejor relación inteligencia-precio” entre los modelos punteros. Traducción: caro, sí, pero al menos rinde.
El “agente autónomo” que necesita un canguro
Aquí es donde la cosa se vuelve hilarante (o frustrante). Google está empujando fuerte su plataforma Antigravity —un entorno de desarrollo controlado por IA que supuestamente construye software solo. Las demos son magia. La realidad, no tanto.
Ethan Mollick, de Wharton, lo probó a fondo y su veredicto es demoledor: “A veces mira un log, declara victoria y sigue, aunque tu build siga petando.” Y otra joya: “Hace una captura de pantalla, dice ‘todo bien’, y pasa por alto que la web ni siquiera estaba funcionando.”
Matt Shumer, un dev que lo usa a diario, lo resume: los agentes necesitan “supervisión constante”. Mantienes terminales abiertos, vuelves a ejecutar, verificas manualmente todo. Sus palabras exactas: “Para desarrolladores que colaboran con él, es potente. Para los que quieren un botón mágico, desespera.”
Mi fallo favorito: Simon Willison le metió una transcripción de audio. Gemini 3 transcribió perfectamente una reunión del ayuntamiento de 3 horas y 33 minutos… pero luego afirmó que terminó a la 1:04. Puede entender el contenido, pero pídele la hora y es como preguntarle a un niño que acaba de aprender a leer un reloj.
Donde destroza a la competencia (y donde no)
Lo dejo clarísimo. Gemini 3 se gana la corona en:
Modo aplastamiento:
- →Comprensión de pantallas: 72,7 % en ScreenSpot-Pro. Claude: 36,2 %. GPT-5.1: un triste 3,5 %. Esto sí es revolucionario para automatizar interfaces
- →Precisión factual: 72,1 % en SimpleQA Verified vs 34,9 % de GPT-5.1 (aunque con un 88 % de confianza cuando alucina… muy IA todo)
- →Análisis de vídeo: 87,6 % en Video-MMMU. Nadie se acerca
Siguiendo la estela:
- →Código: 76,2 % en SWE-bench Verified vs 77,2 % de Claude. Ese 1 % importa cuando tu producción arde
- →Escritura creativa: la gente sigue prefiriendo GPT-5.1 y Claude
- →Disponibilidad geográfica: Gemini Ultra (250 $/mes) sigue bloqueado en Europa. Buen trabajo alienando a un continente entero, Google
Las tres cosas que SÍ son revolucionarias
Quitando la fanfarria, tres capacidades sí cambian el juego:
- →El salto en matemáticas es mutación, no evolución — pasar de 0,5 % a 23,4 % es como si tu calculadora empezara a entender filosofía
- →La comprensión de pantalla al 72,7 % permite por fin automatización visual que entiende lo que ve
- →El “vibe coding” con Antigravity — JetBrains ve >50 % de mejora en tareas. No programadores creando apps funcionales por conversación. Eso es democratizar
Mi opinión honesta tras 48 horas
Google ha construido algo realmente impresionante. Los 1.501 Elo no son humo: es dominio independiente. Las matemáticas son de otro nivel. La comprensión visual abre puertas nuevas.
Pero seamos realistas:
- →El millón de tokens funciona… hasta los 128K
- →Los agentes “autónomos” son becarios brillantes que necesitan supervisión
- →Tiene un 88 % de confianza cuando alucina: te miente a la cara sonriendo
- →Y subir un 12 % el precio en plena recesión… valientes sí son
Hasta el CEO, Sundar Pichai, está diciendo que no hay que “confiar ciegamente” en esto. Si el propio CEO pisa el freno, es que el hype necesita calmante.
¿Deberías cambiarte?
Pásate a Gemini 3 si necesitas:
- →Razonamiento matemático/científico complejo (no hay rival)
- →Análisis de vídeo/imagen (juega en otra liga)
- →Procesamiento de documentos largos (pero revisa a partir de 128K)
- →Mejor inteligencia por dólar
Quédate donde estás si necesitas:
- →Código crítico en producción (ese 1 % de Claude pesa)
- →Operar en Europa (a menos que te encanten las restricciones geográficas)
- →Aplicaciones que requieren autonomía real (spoiler: ninguna lo tiene todavía)
Recuerda: este modelo tiene 3 días. Estamos en modo luna de miel. En un mes veremos si es revolución o solo evolución bien maquillada.
El veredicto: Gemini 3 es real… pero solo para casos específicos. No es el AGI que Google quiere vender. Es una herramienta potentísima que sigue alucinando, un agente “autónomo” que necesita supervisión y un procesador de un millón de tokens que se marea a los 128K.
Bienvenido al futuro: una IA capaz de resolver mates de doctorado pero incapaz de decirte cuándo terminó una reunión.
¿Quieres Más Contenido Así?
Recibe noticias de IA e insights directamente en tu bandeja de entrada todos los días. Únete a miles de profesionales que están un paso adelante.
Suscríbete al Newsletter✓ Sin spam, cancela cuando quieras
Etiquetas
