8.0 KiB
Conclusiones y trabajo futuro
Este capítulo resume las principales conclusiones del trabajo, evalúa el grado de cumplimiento de los objetivos planteados y propone líneas de trabajo futuro que permitirían ampliar y profundizar los resultados obtenidos.
Conclusiones
Conclusiones Generales
Este Trabajo Fin de Máster ha demostrado que es posible mejorar significativamente el rendimiento de sistemas OCR preentrenados mediante optimización sistemática de hiperparámetros, utilizando una infraestructura dockerizada con aceleración GPU para facilitar la experimentación.
El objetivo principal del trabajo era alcanzar un CER inferior al 2% en documentos académicos en español. Los resultados obtenidos se resumen a continuación:
Tabla 44. Cumplimiento del objetivo de CER.
| Métrica | Objetivo | Mejor Trial | Dataset Completo | Cumplimiento |
|---|---|---|---|---|
| CER | < 2% | 0.79% | 7.72% | ✓ Parcial |
Fuente: Elaboración propia.
Nota: El objetivo de CER < 2% se cumple en el mejor trial individual (0.79%, 5 páginas). La validación sobre el conjunto de datos completo (45 páginas) muestra un CER de 7.72%, evidenciando sobreajuste al subconjunto de optimización. Esta diferencia se analiza en detalle en el Capítulo 4.
Conclusiones Específicas
Respecto a OE1 (Comparativa de soluciones OCR):
- Se evaluaron tres soluciones OCR de código abierto: EasyOCR, PaddleOCR (PP-OCRv5) y DocTR
- PaddleOCR demostró el mejor rendimiento base para documentos en español
- La configurabilidad del pipeline de PaddleOCR lo hace idóneo para optimización
Respecto a OE2 (Preparación del conjunto de datos):
- Se construyó un conjunto de datos estructurado con 45 páginas de documentos académicos
- La clase
ImageTextDatasetfacilita la carga de pares imagen-texto - El texto de referencia se extrajo automáticamente del PDF mediante PyMuPDF
Respecto a OE3 (Identificación de hiperparámetros críticos):
- El parámetro
textline_orientationes el más influyente, siendo crítico para obtener buenos resultados - El parámetro
use_doc_orientation_classifydemostró impacto positivo en la configuración GPU - El umbral
text_det_threshpresenta correlación negativa moderada (-0.52) con el CER - El parámetro
use_doc_unwarpingno aporta mejora en documentos digitales
Respecto a OE4 (Optimización con Ray Tune):
- Se ejecutaron 64 trials con el algoritmo OptunaSearch y aceleración GPU
- El tiempo total del experimento fue aproximadamente 1.5 horas (con GPU RTX 3060)
- La arquitectura basada en contenedores Docker permitió superar incompatibilidades entre Ray y los motores OCR, facilitando además la portabilidad y reproducibilidad
Respecto a OE5 (Validación de la configuración):
- Se validó la configuración óptima sobre el conjunto de datos completo de 45 páginas
- El mejor trial individual alcanzó un CER de 0.79% (precisión del 99.21%)
- En el conjunto de datos completo se obtuvo una mejora del 12.8% en CER (8.85% → 7.72%)
- La diferencia entre resultados de trial y validación completa revela sobreajuste al subconjunto de optimización
Hallazgos Clave
-
Arquitectura sobre umbrales: Un único parámetro booleano (
textline_orientation) tiene más impacto que todos los umbrales continuos combinados. -
Umbrales mínimos efectivos: Valores de
text_det_thresh< 0.1 causan fallos catastróficos (CER >40%). -
Simplicidad para documentos digitales: Para documentos PDF digitales (no escaneados), los módulos de corrección de orientación y deformación son innecesarios.
-
Optimización sin fine-tuning: Se puede mejorar el rendimiento de modelos preentrenados mediante ajuste de hiperparámetros de inferencia, aunque la generalización a conjuntos de datos más amplios requiere validación cuidadosa.
Contribuciones del Trabajo
-
Metodología reproducible: Se documenta un proceso completo de optimización de hiperparámetros OCR con Ray Tune + Optuna.
-
Análisis de hiperparámetros de PaddleOCR: Se cuantifica el impacto de cada parámetro configurable mediante correlaciones y análisis comparativo.
-
Configuración óptima para español: Se proporciona una configuración validada para documentos académicos en español.
-
Código fuente: Todo el código está disponible en el repositorio GitHub para reproducción y extensión.
Limitaciones del Trabajo
-
Tipo de documento único: Los experimentos se realizaron únicamente sobre documentos académicos de UNIR. La generalización a otros tipos de documentos requiere validación adicional.
-
Tamaño del conjunto de datos: 45 páginas es un corpus limitado para conclusiones estadísticamente robustas.
-
Texto de referencia automático: La extracción automática del texto de referencia puede introducir errores en diseños complejos.
-
Sobreajuste al subconjunto de optimización: El ajuste sobre 5 páginas no generalizó completamente al conjunto de datos de 45 páginas, resultando en un CER de 7.72% frente al 0.79% del mejor trial.
-
Parámetro no explorado:
text_det_unclip_ratiopermaneció fijo en 0.0 durante todo el experimento. -
Hardware de consumo: Aunque la GPU RTX 3060 proporcionó una aceleración de 82× respecto a CPU, hardware empresarial podría ofrecer mejor rendimiento.
Líneas de trabajo futuro
Extensiones Inmediatas
-
Validación cruzada: Evaluar la configuración óptima en otros tipos de documentos en español (facturas, formularios, textos manuscritos).
-
Subconjunto de optimización más amplio: Utilizar un subconjunto mayor (15-20 páginas) para el ajuste de hiperparámetros y reducir el sobreajuste.
-
Exploración de
text_det_unclip_ratio: Incluir este parámetro en el espacio de búsqueda. -
Conjunto de datos ampliado: Construir un corpus más amplio y diverso de documentos en español.
Líneas de Investigación
-
Transfer learning de hiperparámetros: Investigar si las configuraciones óptimas para un tipo de documento transfieren a otros dominios.
-
Optimización multi-objetivo: Considerar simultáneamente CER, WER y tiempo de inferencia como objetivos.
-
AutoML para OCR: Aplicar técnicas de AutoML más avanzadas (Neural Architecture Search, meta-learning).
-
Comparación con fine-tuning: Cuantificar la brecha de rendimiento entre optimización de hiperparámetros y fine-tuning real.
Aplicaciones Prácticas
-
Herramienta de configuración automática: Desarrollar una herramienta que determine automáticamente la configuración óptima para un nuevo tipo de documento.
-
Integración en pipelines de producción: Implementar la configuración optimizada en sistemas reales de procesamiento documental.
-
Benchmark público: Publicar un benchmark de OCR para documentos en español que facilite la comparación de soluciones.
Reflexión Final
Este trabajo demuestra que la optimización de hiperparámetros representa una alternativa viable al fine-tuning para mejorar sistemas OCR, especialmente cuando se dispone de modelos preentrenados para el idioma objetivo.
La metodología propuesta es reproducible, los resultados son cuantificables, y las conclusiones son aplicables a escenarios reales de procesamiento documental. Aunque el objetivo de CER < 2% se alcanzó en el mejor trial individual (0.79%), la validación sobre el conjunto de datos completo (7.72%) revela la importancia de utilizar subconjuntos de optimización representativos y de validar rigurosamente la generalización.
La infraestructura dockerizada desarrollada facilita la reproducibilidad de los experimentos y la evaluación sistemática de configuraciones OCR. La aceleración de 82× proporcionada por GPU hace viable la exploración exhaustiva de espacios de hiperparámetros en tiempos razonables.
El código fuente, las imágenes Docker y los datos experimentales están disponibles públicamente en el repositorio del proyecto para facilitar la reproducción y extensión de este trabajo.