Some checks failed
build_docker / build_cpu (pull_request) Has been cancelled
build_docker / build_gpu (pull_request) Has been cancelled
build_docker / build_easyocr (pull_request) Has been cancelled
build_docker / build_easyocr_gpu (pull_request) Has been cancelled
build_docker / build_raytune (pull_request) Has been cancelled
build_docker / build_doctr (pull_request) Has been cancelled
build_docker / essential (pull_request) Has been cancelled
build_docker / build_doctr_gpu (pull_request) Has been cancelled
116 lines
6.6 KiB
Markdown
116 lines
6.6 KiB
Markdown
# Conclusiones y trabajo futuro
|
|
|
|
Este capítulo resume las principales conclusiones del trabajo, evalúa el grado de cumplimiento de los objetivos planteados y propone líneas de trabajo futuro que permitirían ampliar y profundizar los resultados obtenidos.
|
|
|
|
## Conclusiones
|
|
|
|
### Conclusiones Generales
|
|
|
|
Este Trabajo Fin de Máster ha demostrado que es posible mejorar significativamente el rendimiento de sistemas OCR preentrenados mediante optimización sistemática de hiperparámetros, sin requerir fine-tuning ni recursos GPU dedicados.
|
|
|
|
El objetivo principal del trabajo era alcanzar un CER inferior al 2% en documentos académicos en español. Los resultados obtenidos confirman el cumplimiento de este objetivo:
|
|
|
|
**Tabla 39.** *Cumplimiento del objetivo de CER.*
|
|
|
|
| Métrica | Objetivo | Resultado |
|
|
|---------|----------|-----------|
|
|
| CER | < 2% | **1.49%** |
|
|
|
|
*Fuente: Elaboración propia.*
|
|
|
|
### Conclusiones Específicas
|
|
|
|
**Respecto a OE1 (Comparativa de soluciones OCR)**:
|
|
- Se evaluaron tres soluciones OCR de código abierto: EasyOCR, PaddleOCR (PP-OCRv5) y DocTR
|
|
- PaddleOCR demostró el mejor rendimiento base para documentos en español
|
|
- La configurabilidad del pipeline de PaddleOCR lo hace idóneo para optimización
|
|
|
|
**Respecto a OE2 (Preparación del dataset)**:
|
|
- Se construyó un dataset estructurado con 24 páginas de documentos académicos
|
|
- La clase `ImageTextDataset` facilita la carga de pares imagen-texto
|
|
- El ground truth se extrajo automáticamente del PDF mediante PyMuPDF
|
|
|
|
**Respecto a OE3 (Identificación de hiperparámetros críticos)**:
|
|
- El parámetro `textline_orientation` es el más influyente: reduce el CER en un 69.7% cuando está habilitado
|
|
- El umbral `text_det_thresh` presenta la correlación más fuerte (-0.52) con el CER
|
|
- Los parámetros de corrección de documento (`use_doc_orientation_classify`, `use_doc_unwarping`) no aportan mejora en documentos digitales
|
|
|
|
**Respecto a OE4 (Optimización con Ray Tune)**:
|
|
- Se ejecutaron 64 trials con el algoritmo OptunaSearch
|
|
- El tiempo total del experimento fue aproximadamente 6 horas (en CPU)
|
|
- La arquitectura basada en contenedores Docker permitió superar incompatibilidades entre Ray y los motores OCR, facilitando además la portabilidad y reproducibilidad
|
|
|
|
**Respecto a OE5 (Validación de la configuración)**:
|
|
- Se validó la configuración óptima sobre el dataset completo de 24 páginas
|
|
- La mejora obtenida fue del 80.9% en reducción del CER (7.78% → 1.49%)
|
|
- La precisión de caracteres alcanzó el 98.51%
|
|
|
|
### Hallazgos Clave
|
|
|
|
1. **Arquitectura sobre umbrales**: Un único parámetro booleano (`textline_orientation`) tiene más impacto que todos los umbrales continuos combinados.
|
|
|
|
2. **Umbrales mínimos efectivos**: Valores de `text_det_thresh` < 0.1 causan fallos catastróficos (CER >40%).
|
|
|
|
3. **Simplicidad para documentos digitales**: Para documentos PDF digitales (no escaneados), los módulos de corrección de orientación y deformación son innecesarios.
|
|
|
|
4. **Optimización sin fine-tuning**: Se puede mejorar significativamente el rendimiento de modelos preentrenados mediante ajuste de hiperparámetros de inferencia.
|
|
|
|
### Contribuciones del Trabajo
|
|
|
|
1. **Metodología reproducible**: Se documenta un proceso completo de optimización de hiperparámetros OCR con Ray Tune + Optuna.
|
|
|
|
2. **Análisis de hiperparámetros de PaddleOCR**: Se cuantifica el impacto de cada parámetro configurable mediante correlaciones y análisis comparativo.
|
|
|
|
3. **Configuración óptima para español**: Se proporciona una configuración validada para documentos académicos en español.
|
|
|
|
4. **Código fuente**: Todo el código está disponible en el repositorio GitHub para reproducción y extensión.
|
|
|
|
### Limitaciones del Trabajo
|
|
|
|
1. **Tipo de documento único**: Los experimentos se realizaron únicamente sobre documentos académicos de UNIR. La generalización a otros tipos de documentos requiere validación adicional.
|
|
|
|
2. **Tamaño del dataset**: 24 páginas es un corpus limitado para conclusiones estadísticamente robustas.
|
|
|
|
3. **Ground truth automático**: La extracción automática del texto de referencia puede introducir errores en layouts complejos.
|
|
|
|
4. **Validación en entorno limitado**: Aunque se validó con GPU (126x más rápido que CPU, 0.55s/página), los experimentos se realizaron en hardware de consumo (RTX 3060). Hardware empresarial podría ofrecer mejor rendimiento.
|
|
|
|
5. **Parámetro no explorado**: `text_det_unclip_ratio` permaneció fijo en 0.0 durante todo el experimento.
|
|
|
|
## Líneas de trabajo futuro
|
|
|
|
### Extensiones Inmediatas
|
|
|
|
1. **Validación cruzada**: Evaluar la configuración óptima en otros tipos de documentos en español (facturas, formularios, textos manuscritos).
|
|
|
|
2. **Exploración de `text_det_unclip_ratio`**: Incluir este parámetro en el espacio de búsqueda.
|
|
|
|
3. **Dataset ampliado**: Construir un corpus más amplio y diverso de documentos en español.
|
|
|
|
### Líneas de Investigación
|
|
|
|
1. **Transfer learning de hiperparámetros**: Investigar si las configuraciones óptimas para un tipo de documento transfieren a otros dominios.
|
|
|
|
2. **Optimización multi-objetivo**: Considerar simultáneamente CER, WER y tiempo de inferencia como objetivos.
|
|
|
|
3. **AutoML para OCR**: Aplicar técnicas de AutoML más avanzadas (Neural Architecture Search, meta-learning).
|
|
|
|
4. **Comparación con fine-tuning**: Cuantificar la brecha de rendimiento entre optimización de hiperparámetros y fine-tuning real.
|
|
|
|
### Aplicaciones Prácticas
|
|
|
|
1. **Herramienta de configuración automática**: Desarrollar una herramienta que determine automáticamente la configuración óptima para un nuevo tipo de documento.
|
|
|
|
2. **Integración en pipelines de producción**: Implementar la configuración optimizada en sistemas reales de procesamiento documental.
|
|
|
|
3. **Benchmark público**: Publicar un benchmark de OCR para documentos en español que facilite la comparación de soluciones.
|
|
|
|
### Reflexión Final
|
|
|
|
Este trabajo demuestra que, en un contexto de recursos limitados donde el fine-tuning de modelos de deep learning no es viable, la optimización de hiperparámetros representa una alternativa práctica y efectiva para mejorar sistemas OCR.
|
|
|
|
La metodología propuesta es reproducible, los resultados son cuantificables, y las conclusiones son aplicables a escenarios reales de procesamiento documental. La reducción del CER del 7.78% al 1.49% representa una mejora sustancial que puede tener impacto directo en aplicaciones downstream como extracción de información, análisis semántico y búsqueda de documentos.
|
|
|
|
El código fuente y los datos experimentales están disponibles públicamente para facilitar la reproducción y extensión de este trabajo.
|
|
|