Sistema OCR multimotor con IA para PDFs escaneados en español

Trabajo Fin de Máster (TFM) – Tipo 2: Desarrollo de Software
Líneas: Percepción computacional · Aprendizaje automático
Autor: Sergio Jiménez Jiménez · UNIR · Año: 2025

Extracción robusta de texto desde PDFs escaneados en español usando modelos neuronales (EasyOCR · PaddleOCR/PP‑OCR · TrOCR · opcionales: DocTR/MMOCR).
Enfoque solo IA: no se incluyen motores clásicos (p. ej., Tesseract) ni propietarios (p. ej., ABBYY).

🧭 Objetivo

Desarrollar y evaluar un sistema OCR multimotor basado exclusivamente en IA que:

Procese PDFs escaneados extremo a extremo (PDF → Imagen → Preproc → OCR → Fusión → Post-proc).
Mejore ≥15% el CER frente a una línea base neuronal (p. ej., EasyOCR por defecto) en un conjunto de prueba en español.
Mantenga tiempos por página prácticos y un pipeline reproducible.

Métricas principales:

CER (Character Error Rate)
WER (Word Error Rate)
Latencia por página

🧩 Alcance y decisiones de diseño

Idioma: español (texto impreso; no manuscrito).
Documentos: PDFs escaneados (calidad variable, skew, ruido, maquetación estándar).
Motores IA incluidos:
- EasyOCR (baseline neuronal)
- PaddleOCR (PP‑OCR)
- TrOCR (Vision‑Encoder‑Decoder / Transformers)
- Opcionales: DocTR (python‑doctr), MMOCR (OpenMMLab)
Exclusiones: Tesseract/ABBYY u otros motores clásicos/propietarios.
Evaluación: CER/WER + tiempos. Fusión por votación/ confianza y post‑procesado lingüístico (opcional).

🏗️ Arquitectura (visión general)

PDF (escaneado)
   └─► Conversión a imagen (PyMuPDF / pdf2image)
         └─► Preprocesado (OpenCV): binarización · normalización · deskew · denoise
               └─► OCR (IA): EasyOCR | PaddleOCR | TrOCR [ (+ DocTR/MMOCR opc.) ]
                     └─► Fusión: votación / selección por confianza
                           └─► Post‑procesado: normalización · corrección ortográfica (opcional)
                                 └─► Evaluación: CER · WER · latencia

2.3 KiB Raw Blame History Unescape Escape

Sistema OCR multimotor con IA para PDFs escaneados en español

🧭 Objetivo

🧩 Alcance y decisiones de diseño

🏗️ Arquitectura (visión general)

2.3 KiB

Raw Blame History