ocr_paddle
This commit is contained in:
52
README.md
52
README.md
@@ -1,31 +1,49 @@
|
|||||||
# 🧠 Intelligent OCR System for Scanned PDF Documents
|
# Sistema OCR multimotor con IA para PDFs escaneados en español
|
||||||
|
|
||||||
**Master’s Thesis – Software Development Project**
|
**Trabajo Fin de Máster (TFM) – Tipo 2: Desarrollo de Software**
|
||||||
**Línea de trabajo:** Percepción computacional & Aprendizaje automático
|
**Líneas:** Percepción computacional · Aprendizaje automático
|
||||||
**Author:** Sergio Jiménez
|
**Autor:** Sergio Jiménez Jiménez · **UNIR** · **Año:** 2025
|
||||||
**Institution:** [UNIR - Universidad Internacional de La Rioja](https://www.unir.net/ingenieria/master-inteligencia-artificial/)
|
|
||||||
|
|
||||||
**Date:** 2025
|
> Extracción **robusta** de texto desde **PDFs escaneados** en **español** usando **modelos neuronales** (EasyOCR · PaddleOCR/PP‑OCR · TrOCR · *opcionales*: DocTR/MMOCR).
|
||||||
|
> Enfoque **solo IA**: **no** se incluyen motores clásicos (p. ej., Tesseract) ni propietarios (p. ej., ABBYY).
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## 📘 Overview
|
## 🧭 Objetivo
|
||||||
|
|
||||||
This project develops an **intelligent system for text extraction from scanned PDF documents**, combining **computer vision techniques** and **modern OCR models based on deep learning**.
|
Desarrollar y evaluar un **sistema OCR multimotor** basado **exclusivamente** en IA que:
|
||||||
The goal is to overcome the limitations of traditional OCR tools (e.g., Tesseract) when dealing with **low-quality, skewed, or noisy scanned documents**, particularly in **Spanish**.
|
- Procese PDFs escaneados extremo a extremo (**PDF → Imagen → Preproc → OCR → Fusión → Post-proc**).
|
||||||
|
- **Mejore ≥15% el CER** frente a una **línea base neuronal** (p. ej., EasyOCR por defecto) en un conjunto de prueba en español.
|
||||||
|
- Mantenga **tiempos por página** prácticos y un **pipeline reproducible**.
|
||||||
|
|
||||||
|
**Métricas principales:**
|
||||||
|
- **CER** (Character Error Rate)
|
||||||
|
- **WER** (Word Error Rate)
|
||||||
|
- **Latencia** por página
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## 🎯 Objectives
|
## 🧩 Alcance y decisiones de diseño
|
||||||
|
|
||||||
- Develop a **modular OCR pipeline** that processes scanned PDFs end-to-end.
|
- **Idioma:** español (texto impreso; no manuscrito).
|
||||||
- Compare classical OCR tools with **state-of-the-art deep learning approaches** (EasyOCR, TrOCR, CRNN).
|
- **Documentos:** **PDFs escaneados** (calidad variable, skew, ruido, maquetación estándar).
|
||||||
- Evaluate performance using **Character Error Rate (CER)** and **Word Error Rate (WER)**.
|
- **Motores IA incluidos:**
|
||||||
- Provide a **CLI-based demonstration tool** and analysis module for automated evaluation.
|
- **EasyOCR** (baseline neuronal)
|
||||||
|
- **PaddleOCR (PP‑OCR)**
|
||||||
|
- **TrOCR** (Vision‑Encoder‑Decoder / Transformers)
|
||||||
|
- *Opcionales:* **DocTR** (python‑doctr), **MMOCR** (OpenMMLab)
|
||||||
|
- **Exclusiones:** Tesseract/ABBYY u otros motores clásicos/propietarios.
|
||||||
|
- **Evaluación:** CER/WER + tiempos. **Fusión** por votación/ confianza y **post‑procesado** lingüístico (opcional).
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## 🧩 System Architecture
|
## 🏗️ Arquitectura (visión general)
|
||||||
|
|
||||||
TODO
|
|
||||||
|
|
||||||
|
```text
|
||||||
|
PDF (escaneado)
|
||||||
|
└─► Conversión a imagen (PyMuPDF / pdf2image)
|
||||||
|
└─► Preprocesado (OpenCV): binarización · normalización · deskew · denoise
|
||||||
|
└─► OCR (IA): EasyOCR | PaddleOCR | TrOCR [ (+ DocTR/MMOCR opc.) ]
|
||||||
|
└─► Fusión: votación / selección por confianza
|
||||||
|
└─► Post‑procesado: normalización · corrección ortográfica (opcional)
|
||||||
|
└─► Evaluación: CER · WER · latencia
|
||||||
|
|||||||
File diff suppressed because one or more lines are too long
Reference in New Issue
Block a user