DeepSeek-OCR: La IA que lee demasiado en todo
Idir Ouhab Meskine
8 de noviembre de 2025

Cuando DeepSeek AI lanzó su nuevo modelo el 20 de octubre de 2025, no solo leía texto, sino que comprimía la realidad. DeepSeek-OCR promete una precisión del 97 % al tiempo que reduce los documentos 10 veces, convirtiendo mil palabras en cien «tokens visuales». En otras palabras, hacía que tu PDF fuera diez veces más pequeño y tu GPU diez veces más caliente.
Andrej Karpathy lo calificó como «más interesante que un simple buen OCR», lo que en lenguaje de IA significa: probablemente sea un caos, pero del tipo interesante.
La gran idea: leer con los ojos cerrados
El OCR tradicional lee letras. DeepSeek lee el diseño. Conserva todo (fuentes, márgenes, incluso el mal formato de tu colega) como tokens visuales, comprimiendo el texto como un becario con exceso de trabajo que resume un informe de 300 páginas en un mensaje de Slack sin aliento.
La arquitectura suena como un crossover de Los Vengadores: un «codificador de visión dual» compuesto por SAM-base y CLIP-large, conectados por un compresor convolucional. No es un modelo, es una banda de rock.
¿El resultado? Entre siete y veinte veces menos tokens, lo que significa que tu LLM por fin puede leer todo tu informe anual sin olvidar cómo empezó.
El inconveniente: el OCR de Schrödinger
Pruebas independientes demuestran que es brillante... y poco fiable. El mismo documento puede producir resultados diferentes cada vez. Las casillas se desplazan, el texto desaparece, aparecen alucinaciones. Es como una IA que es excelente leyendo, a menos que esté de mal humor.
Eso no es ideal para bancos, hospitales o cualquiera a quien le importe que «100,00 $» se convierta a veces en «1000,0 $».
Para empeorar las cosas, solo funciona correctamente en GPU que cuestan tanto como un coche. ¿Usuarios de Mac? Olvídalo. Tardarás más en leer la guía de instalación que lo que tarda DeepSeek en procesar mil PDF.
La compresión es barata, la precisión es cara
DeepSeek-OCR reduce los costes hasta en un 90 %, lo que suena fantástico hasta que te das cuenta de lo que se comprime: la verdad. Si se aplica una compresión superior a 10×, la precisión cae en picado. A 20×, solo seis de cada diez caracteres sobreviven al viaje.
Así que sí, ahorrarás dinero, pero también podrías reinventar la poesía abstracta en tus facturas.
La revolución oculta
Más allá del marketing, hay una idea más profunda: tal vez el texto ya no tenga que ser texto. Tal vez el futuro de la IA sea la visión como memoria, donde la información se almacena visualmente, se comprime con el tiempo y se recupera como un cerebro biológico que olvida... estratégicamente.
Esa es la bomba filosófica que lanzó DeepSeek: tal vez los LLM deberían ver en lugar de leer. Y si eso es cierto, la tokenización, la base de la IA moderna, podría ser la siguiente en desaparecer.
¿Deberías usarla?
Si eres investigador, sí. Si eres un banco, probablemente no. Si te gusta pasar los fines de semana compilando dependencias de PyTorch, sin duda.
DeepSeek-OCR es brillante, inestable y políticamente radiactivo, una metáfora perfecta para la industria de la IA en 2025. Pero, independientemente de si te funciona o no, una cosa está clara: la era del lenguaje visual ha comenzado y va a hacer sudar a nuestros modelos y a nuestras GPU.
¿Quieres Más Contenido Así?
Recibe noticias de IA e insights directamente en tu bandeja de entrada todos los días. Únete a miles de profesionales que están un paso adelante.
Suscríbete al Newsletter✓ Sin spam, cancela cuando quieras
Etiquetas

