Trabajo Fin de Máster (TFM) – Tipo 2: Desarrollo de Software
Líneas: Percepción computacional · Aprendizaje automático
Autor: Sergio Jiménez Jiménez · UNIR · Año: 2025

Extracción de texto desde PDFs escaneados en español mediante motores OCR basados en IA (EasyOCR · PaddleOCR · DocTR).
Se excluyen soluciones clásicas como Tesseract o propietarias como ABBYY, centrando el proyecto en modelos neuronales modernos.

🧭 Objetivo

Desarrollar y evaluar un sistema OCR multimotor capaz de:

Procesar PDFs escaneados extremo a extremo (PDF → Imagen → Preprocesado → OCR → Evaluación).
Reducir el CER al menos un 15 % respecto a una línea base neuronal (EasyOCR).
Mantener tiempos por página adecuados y un pipeline modular y reproducible.

Métricas principales:

CER (Character Error Rate)
WER (Word Error Rate)
*Latencia por página

🧩 Alcance y diseño

Idioma: español (texto impreso, no manuscrito).
Entrada: PDFs escaneados con calidad variable, ruido o inclinación.
Motores evaluados:
- EasyOCR – baseline neuronal ligera.
- PaddleOCR (PP-OCR) – referencia industrial multilingüe.
- DocTR (Mindee) – arquitectura PyTorch modular con salida estructurada.
Evaluación: CER, WER y latencia promedio por página.

🏗️ Arquitectura del sistema

PDF (escaneado)
 └─► Conversión a imagen (PyMuPDF / pdf2image)
      └─► Preprocesado (OpenCV)
            └─► OCR (EasyOCR | PaddleOCR | DocTR)
                  └─► Evaluación (CER · WER · latencia)

🔜 Próximos pasos

Ajustar parámetros y arquitecturas en DocTR (detector y reconocedor).
Añadir métricas de latencia.
Incorporar postprocesamiento lingüístico (corrección ortográfica).
Explorar TrOCR o MMOCR como comparación avanzada en la segunda fase.

Languages

Jupyter Notebook 84.9%

HTML 12.9%

Python 1.9%

JavaScript 0.1%

CSS 0.1%

README.md Unescape Escape

Sistema OCR multimotor con IA para PDFs escaneados en español

🧭 Objetivo

🧩 Alcance y diseño

🏗️ Arquitectura del sistema

🔜 Próximos pasos

README.md