Files
MastersThesis/README.md
2025-10-11 17:25:29 +02:00

2.3 KiB
Raw Blame History

Sistema OCR multimotor con IA para PDFs escaneados en español

Trabajo Fin de Máster (TFM) Tipo 2: Desarrollo de Software
Líneas: Percepción computacional · Aprendizaje automático
Autor: Sergio Jiménez Jiménez · UNIR · Año: 2025

Extracción robusta de texto desde PDFs escaneados en español usando modelos neuronales (EasyOCR · PaddleOCR/PPOCR · TrOCR · opcionales: DocTR/MMOCR).
Enfoque solo IA: no se incluyen motores clásicos (p. ej., Tesseract) ni propietarios (p. ej., ABBYY).


🧭 Objetivo

Desarrollar y evaluar un sistema OCR multimotor basado exclusivamente en IA que:

  • Procese PDFs escaneados extremo a extremo (PDF → Imagen → Preproc → OCR → Fusión → Post-proc).
  • Mejore ≥15% el CER frente a una línea base neuronal (p. ej., EasyOCR por defecto) en un conjunto de prueba en español.
  • Mantenga tiempos por página prácticos y un pipeline reproducible.

Métricas principales:

  • CER (Character Error Rate)
  • WER (Word Error Rate)
  • Latencia por página

🧩 Alcance y decisiones de diseño

  • Idioma: español (texto impreso; no manuscrito).
  • Documentos: PDFs escaneados (calidad variable, skew, ruido, maquetación estándar).
  • Motores IA incluidos:
    • EasyOCR (baseline neuronal)
    • PaddleOCR (PPOCR)
    • TrOCR (VisionEncoderDecoder / Transformers)
    • Opcionales: DocTR (pythondoctr), MMOCR (OpenMMLab)
  • Exclusiones: Tesseract/ABBYY u otros motores clásicos/propietarios.
  • Evaluación: CER/WER + tiempos. Fusión por votación/ confianza y postprocesado lingüístico (opcional).

🏗️ Arquitectura (visión general)

PDF (escaneado)
   └─► Conversión a imagen (PyMuPDF / pdf2image)
         └─► Preprocesado (OpenCV): binarización · normalización · deskew · denoise
               └─► OCR (IA): EasyOCR | PaddleOCR | TrOCR [ (+ DocTR/MMOCR opc.) ]
                     └─► Fusión: votación / selección por confianza
                           └─► Postprocesado: normalización · corrección ortográfica (opcional)
                                 └─► Evaluación: CER · WER · latencia