unir/MastersThesis

Fork 0

Files

sergio 6b98aeacac

build_docker / essential (pull_request) Successful in 1s

Details

build_docker / build_cpu (pull_request) Successful in 5m0s

Details

build_docker / build_gpu (pull_request) Successful in 22m37s

Details

build_docker / build_easyocr (pull_request) Successful in 18m5s

Details

build_docker / build_easyocr_gpu (pull_request) Successful in 15m43s

Details

build_docker / build_doctr (pull_request) Successful in 17m17s

Details

build_docker / build_raytune (pull_request) Successful in 3m24s

Details

build_docker / build_doctr_gpu (pull_request) Successful in 16m54s

Details

assit commands for claude

2026-01-20 11:35:56 +01:00

8.0 KiB

Raw Blame History

Conclusiones y trabajo futuro

Este capítulo resume las principales conclusiones del trabajo, evalúa el grado de cumplimiento de los objetivos planteados y propone líneas de trabajo futuro que permitirían ampliar y profundizar los resultados obtenidos.

Conclusiones

Conclusiones Generales

Este Trabajo Fin de Máster ha demostrado que es posible mejorar significativamente el rendimiento de sistemas OCR preentrenados mediante optimización sistemática de hiperparámetros, utilizando una infraestructura dockerizada con aceleración GPU para facilitar la experimentación.

El objetivo principal del trabajo era alcanzar un CER inferior al 2% en documentos académicos en español. Los resultados obtenidos se resumen a continuación:

Tabla 44. Cumplimiento del objetivo de CER.

Métrica	Objetivo	Mejor Trial	Dataset Completo	Cumplimiento
CER	< 2%	0.79%	7.72%	✓ Parcial

Fuente: Elaboración propia.

Nota: El objetivo de CER < 2% se cumple en el mejor trial individual (0.79%, 5 páginas). La validación sobre el conjunto de datos completo (45 páginas) muestra un CER de 7.72%, evidenciando sobreajuste al subconjunto de optimización. Esta diferencia se analiza en detalle en el Capítulo 4.

Conclusiones Específicas

Respecto a OE1 (Comparativa de soluciones OCR):

Se evaluaron tres soluciones OCR de código abierto: EasyOCR, PaddleOCR (PP-OCRv5) y DocTR
PaddleOCR demostró el mejor rendimiento base para documentos en español
La configurabilidad del pipeline de PaddleOCR lo hace idóneo para optimización

Respecto a OE2 (Preparación del conjunto de datos):

Se construyó un conjunto de datos estructurado con 45 páginas de documentos académicos
La clase ImageTextDataset facilita la carga de pares imagen-texto
El texto de referencia se extrajo automáticamente del PDF mediante PyMuPDF

Respecto a OE3 (Identificación de hiperparámetros críticos):

El parámetro textline_orientation es el más influyente, siendo crítico para obtener buenos resultados
El parámetro use_doc_orientation_classify demostró impacto positivo en la configuración GPU
El umbral text_det_thresh presenta correlación negativa moderada (-0.52) con el CER
El parámetro use_doc_unwarping no aporta mejora en documentos digitales

Respecto a OE4 (Optimización con Ray Tune):

Se ejecutaron 64 trials con el algoritmo OptunaSearch y aceleración GPU
El tiempo total del experimento fue aproximadamente 1.5 horas (con GPU RTX 3060)
La arquitectura basada en contenedores Docker permitió superar incompatibilidades entre Ray y los motores OCR, facilitando además la portabilidad y reproducibilidad

Respecto a OE5 (Validación de la configuración):

Se validó la configuración óptima sobre el conjunto de datos completo de 45 páginas
El mejor trial individual alcanzó un CER de 0.79% (precisión del 99.21%)
En el conjunto de datos completo se obtuvo una mejora del 12.8% en CER (8.85% → 7.72%)
La diferencia entre resultados de trial y validación completa revela sobreajuste al subconjunto de optimización

Hallazgos Clave

Arquitectura sobre umbrales: Un único parámetro booleano (textline_orientation) tiene más impacto que todos los umbrales continuos combinados.
Umbrales mínimos efectivos: Valores de text_det_thresh < 0.1 causan fallos catastróficos (CER >40%).
Simplicidad para documentos digitales: Para documentos PDF digitales (no escaneados), los módulos de corrección de orientación y deformación son innecesarios.
Optimización sin fine-tuning: Se puede mejorar el rendimiento de modelos preentrenados mediante ajuste de hiperparámetros de inferencia, aunque la generalización a conjuntos de datos más amplios requiere validación cuidadosa.

Contribuciones del Trabajo

Metodología reproducible: Se documenta un proceso completo de optimización de hiperparámetros OCR con Ray Tune + Optuna.
Análisis de hiperparámetros de PaddleOCR: Se cuantifica el impacto de cada parámetro configurable mediante correlaciones y análisis comparativo.
Configuración óptima para español: Se proporciona una configuración validada para documentos académicos en español.
Código fuente: Todo el código está disponible en el repositorio GitHub para reproducción y extensión.

Limitaciones del Trabajo

Tipo de documento único: Los experimentos se realizaron únicamente sobre documentos académicos de UNIR. La generalización a otros tipos de documentos requiere validación adicional.
Tamaño del conjunto de datos: 45 páginas es un corpus limitado para conclusiones estadísticamente robustas.
Texto de referencia automático: La extracción automática del texto de referencia puede introducir errores en diseños complejos.
Sobreajuste al subconjunto de optimización: El ajuste sobre 5 páginas no generalizó completamente al conjunto de datos de 45 páginas, resultando en un CER de 7.72% frente al 0.79% del mejor trial.
Parámetro no explorado: text_det_unclip_ratio permaneció fijo en 0.0 durante todo el experimento.
Hardware de consumo: Aunque la GPU RTX 3060 proporcionó una aceleración de 82× respecto a CPU, hardware empresarial podría ofrecer mejor rendimiento.

Líneas de trabajo futuro

Extensiones Inmediatas

Validación cruzada: Evaluar la configuración óptima en otros tipos de documentos en español (facturas, formularios, textos manuscritos).
Subconjunto de optimización más amplio: Utilizar un subconjunto mayor (15-20 páginas) para el ajuste de hiperparámetros y reducir el sobreajuste.
Exploración de text_det_unclip_ratio: Incluir este parámetro en el espacio de búsqueda.
Conjunto de datos ampliado: Construir un corpus más amplio y diverso de documentos en español.

Líneas de Investigación

Transfer learning de hiperparámetros: Investigar si las configuraciones óptimas para un tipo de documento transfieren a otros dominios.
Optimización multi-objetivo: Considerar simultáneamente CER, WER y tiempo de inferencia como objetivos.
AutoML para OCR: Aplicar técnicas de AutoML más avanzadas (Neural Architecture Search, meta-learning).
Comparación con fine-tuning: Cuantificar la brecha de rendimiento entre optimización de hiperparámetros y fine-tuning real.

Aplicaciones Prácticas

Herramienta de configuración automática: Desarrollar una herramienta que determine automáticamente la configuración óptima para un nuevo tipo de documento.
Integración en pipelines de producción: Implementar la configuración optimizada en sistemas reales de procesamiento documental.
Benchmark público: Publicar un benchmark de OCR para documentos en español que facilite la comparación de soluciones.

Reflexión Final

Este trabajo demuestra que la optimización de hiperparámetros representa una alternativa viable al fine-tuning para mejorar sistemas OCR, especialmente cuando se dispone de modelos preentrenados para el idioma objetivo.

La metodología propuesta es reproducible, los resultados son cuantificables, y las conclusiones son aplicables a escenarios reales de procesamiento documental. Aunque el objetivo de CER < 2% se alcanzó en el mejor trial individual (0.79%), la validación sobre el conjunto de datos completo (7.72%) revela la importancia de utilizar subconjuntos de optimización representativos y de validar rigurosamente la generalización.

La infraestructura dockerizada desarrollada facilita la reproducibilidad de los experimentos y la evaluación sistemática de configuraciones OCR. La aceleración de 82× proporcionada por GPU hace viable la exploración exhaustiva de espacios de hiperparámetros en tiempos razonables.

El código fuente, las imágenes Docker y los datos experimentales están disponibles públicamente en el repositorio del proyecto para facilitar la reproducción y extensión de este trabajo.

8.0 KiB Raw Blame History Unescape Escape

Conclusiones y trabajo futuro

Conclusiones

Conclusiones Generales

Conclusiones Específicas

Hallazgos Clave

Contribuciones del Trabajo

Limitaciones del Trabajo

Líneas de trabajo futuro

Extensiones Inmediatas

Líneas de Investigación

Aplicaciones Prácticas

Reflexión Final

8.0 KiB

Raw Blame History