Files
MastersThesis/docs/05_conclusiones_trabajo_futuro.md
2025-12-16 00:07:00 +01:00

6.4 KiB

Conclusiones y trabajo futuro

Este capítulo resume las principales conclusiones del trabajo, evalúa el grado de cumplimiento de los objetivos planteados y propone líneas de trabajo futuro que permitirían ampliar y profundizar los resultados obtenidos.

Conclusiones

Conclusiones Generales

Este Trabajo Fin de Máster ha demostrado que es posible mejorar significativamente el rendimiento de sistemas OCR preentrenados mediante optimización sistemática de hiperparámetros, sin requerir fine-tuning ni recursos GPU dedicados.

El objetivo principal del trabajo era alcanzar un CER inferior al 2% en documentos académicos en español. Los resultados obtenidos confirman el cumplimiento de este objetivo:

Métrica Objetivo Resultado
CER < 2% 1.49%

Conclusiones Específicas

Respecto a OE1 (Comparativa de soluciones OCR):

  • Se evaluaron tres soluciones OCR de código abierto: EasyOCR, PaddleOCR (PP-OCRv5) y DocTR
  • PaddleOCR demostró el mejor rendimiento base para documentos en español
  • La configurabilidad del pipeline de PaddleOCR lo hace idóneo para optimización

Respecto a OE2 (Preparación del dataset):

  • Se construyó un dataset estructurado con 24 páginas de documentos académicos
  • La clase ImageTextDataset facilita la carga de pares imagen-texto
  • El ground truth se extrajo automáticamente del PDF mediante PyMuPDF

Respecto a OE3 (Identificación de hiperparámetros críticos):

  • El parámetro textline_orientation es el más influyente: reduce el CER en un 69.7% cuando está habilitado
  • El umbral text_det_thresh presenta la correlación más fuerte (-0.52) con el CER
  • Los parámetros de corrección de documento (use_doc_orientation_classify, use_doc_unwarping) no aportan mejora en documentos digitales

Respecto a OE4 (Optimización con Ray Tune):

  • Se ejecutaron 64 trials con el algoritmo OptunaSearch
  • El tiempo total del experimento fue aproximadamente 6 horas (en CPU)
  • La arquitectura basada en subprocesos permitió superar incompatibilidades entre Ray y PaddleOCR

Respecto a OE5 (Validación de la configuración):

  • Se validó la configuración óptima sobre el dataset completo de 24 páginas
  • La mejora obtenida fue del 80.9% en reducción del CER (7.78% → 1.49%)
  • La precisión de caracteres alcanzó el 98.51%

Hallazgos Clave

  1. Arquitectura sobre umbrales: Un único parámetro booleano (textline_orientation) tiene más impacto que todos los umbrales continuos combinados.

  2. Umbrales mínimos efectivos: Valores de text_det_thresh < 0.1 causan fallos catastróficos (CER >40%).

  3. Simplicidad para documentos digitales: Para documentos PDF digitales (no escaneados), los módulos de corrección de orientación y deformación son innecesarios.

  4. Optimización sin fine-tuning: Se puede mejorar significativamente el rendimiento de modelos preentrenados mediante ajuste de hiperparámetros de inferencia.

Contribuciones del Trabajo

  1. Metodología reproducible: Se documenta un proceso completo de optimización de hiperparámetros OCR con Ray Tune + Optuna.

  2. Análisis de hiperparámetros de PaddleOCR: Se cuantifica el impacto de cada parámetro configurable mediante correlaciones y análisis comparativo.

  3. Configuración óptima para español: Se proporciona una configuración validada para documentos académicos en español.

  4. Código fuente: Todo el código está disponible en el repositorio GitHub para reproducción y extensión.

Limitaciones del Trabajo

  1. Tipo de documento único: Los experimentos se realizaron únicamente sobre documentos académicos de UNIR. La generalización a otros tipos de documentos requiere validación adicional.

  2. Tamaño del dataset: 24 páginas es un corpus limitado para conclusiones estadísticamente robustas.

  3. Ground truth automático: La extracción automática del texto de referencia puede introducir errores en layouts complejos.

  4. Ejecución en CPU: Los tiempos de procesamiento (~69s/página) limitan la aplicabilidad en escenarios de alto volumen.

  5. Parámetro no explorado: text_det_unclip_ratio permaneció fijo en 0.0 durante todo el experimento.

Líneas de trabajo futuro

Extensiones Inmediatas

  1. Validación cruzada: Evaluar la configuración óptima en otros tipos de documentos en español (facturas, formularios, textos manuscritos).

  2. Exploración de text_det_unclip_ratio: Incluir este parámetro en el espacio de búsqueda.

  3. Dataset ampliado: Construir un corpus más amplio y diverso de documentos en español.

  4. Evaluación con GPU: Medir tiempos de inferencia con aceleración GPU.

Líneas de Investigación

  1. Transfer learning de hiperparámetros: Investigar si las configuraciones óptimas para un tipo de documento transfieren a otros dominios.

  2. Optimización multi-objetivo: Considerar simultáneamente CER, WER y tiempo de inferencia como objetivos.

  3. AutoML para OCR: Aplicar técnicas de AutoML más avanzadas (Neural Architecture Search, meta-learning).

  4. Comparación con fine-tuning: Cuantificar la brecha de rendimiento entre optimización de hiperparámetros y fine-tuning real.

Aplicaciones Prácticas

  1. Herramienta de configuración automática: Desarrollar una herramienta que determine automáticamente la configuración óptima para un nuevo tipo de documento.

  2. Integración en pipelines de producción: Implementar la configuración optimizada en sistemas reales de procesamiento documental.

  3. Benchmark público: Publicar un benchmark de OCR para documentos en español que facilite la comparación de soluciones.

Reflexión Final

Este trabajo demuestra que, en un contexto de recursos limitados donde el fine-tuning de modelos de deep learning no es viable, la optimización de hiperparámetros representa una alternativa práctica y efectiva para mejorar sistemas OCR.

La metodología propuesta es reproducible, los resultados son cuantificables, y las conclusiones son aplicables a escenarios reales de procesamiento documental. La reducción del CER del 7.78% al 1.49% representa una mejora sustancial que puede tener impacto directo en aplicaciones downstream como extracción de información, análisis semántico y búsqueda de documentos.

El código fuente y los datos experimentales están disponibles públicamente para facilitar la reproducción y extensión de este trabajo.