DeepSeek-OCR es un modelo de código abierto desarrollado por la firma china DeepSeek que convierte el texto en imágenes y lo procesa visualmente. Esto permite reducir la cantidad de datos que una IA necesita para entender documentos extensos, comprimiendo el contenido hasta diez veces sin perder información crucial. El modelo utiliza un codificador visual de 380 millones de parámetros y puede procesar más de 200.000 páginas al día con una sola GPU Nvidia A100. En pruebas, superó a sistemas como GOT-OCR2.0 y MinerU2.0, y ha sido liberado con código abierto bajo licencia MIT. El enfoque ha sido elogiado por figuras como Andrej Karpathy, y se espera que tenga aplicaciones enormes en el mundo empresarial. El modelo fue entrenado con 30 millones de páginas en PDF de cerca de 100 idiomas, y se planean nuevas evaluaciones para probar su utilidad en tareas complejas.