2.3 KiB
2.3 KiB
Sistema OCR multimotor con IA para PDFs escaneados en español
Trabajo Fin de Máster (TFM) – Tipo 2: Desarrollo de Software
Líneas: Percepción computacional · Aprendizaje automático
Autor: Sergio Jiménez Jiménez · UNIR · Año: 2025
Extracción robusta de texto desde PDFs escaneados en español usando modelos neuronales (EasyOCR · PaddleOCR/PP‑OCR · TrOCR · opcionales: DocTR/MMOCR).
Enfoque solo IA: no se incluyen motores clásicos (p. ej., Tesseract) ni propietarios (p. ej., ABBYY).
🧭 Objetivo
Desarrollar y evaluar un sistema OCR multimotor basado exclusivamente en IA que:
- Procese PDFs escaneados extremo a extremo (PDF → Imagen → Preproc → OCR → Fusión → Post-proc).
- Mejore ≥15% el CER frente a una línea base neuronal (p. ej., EasyOCR por defecto) en un conjunto de prueba en español.
- Mantenga tiempos por página prácticos y un pipeline reproducible.
Métricas principales:
- CER (Character Error Rate)
- WER (Word Error Rate)
- Latencia por página
🧩 Alcance y decisiones de diseño
- Idioma: español (texto impreso; no manuscrito).
- Documentos: PDFs escaneados (calidad variable, skew, ruido, maquetación estándar).
- Motores IA incluidos:
- EasyOCR (baseline neuronal)
- PaddleOCR (PP‑OCR)
- TrOCR (Vision‑Encoder‑Decoder / Transformers)
- Opcionales: DocTR (python‑doctr), MMOCR (OpenMMLab)
- Exclusiones: Tesseract/ABBYY u otros motores clásicos/propietarios.
- Evaluación: CER/WER + tiempos. Fusión por votación/ confianza y post‑procesado lingüístico (opcional).
🏗️ Arquitectura (visión general)
PDF (escaneado)
└─► Conversión a imagen (PyMuPDF / pdf2image)
└─► Preprocesado (OpenCV): binarización · normalización · deskew · denoise
└─► OCR (IA): EasyOCR | PaddleOCR | TrOCR [ (+ DocTR/MMOCR opc.) ]
└─► Fusión: votación / selección por confianza
└─► Post‑procesado: normalización · corrección ortográfica (opcional)
└─► Evaluación: CER · WER · latencia