> Optimización sistemática de hiperparámetros de **PaddleOCR (PP-OCRv5)** mediante **Ray Tune** con **Optuna** para mejorar el reconocimiento óptico de caracteres en documentos académicos en español.
Optimizar el rendimiento de PaddleOCR para documentos académicos en español mediante ajuste de hiperparámetros, alcanzando un **CER inferior al 2%** sin requerir fine-tuning del modelo ni recursos GPU dedicados.
1.**`textline_orientation=True` es crítico**: Reduce el CER en un 69.7%. Para documentos con layouts mixtos (tablas, encabezados), la clasificación de orientación de línea es esencial.
2.**Umbral `text_det_thresh` importante**: Correlación -0.52 con CER. Valores óptimos entre 0.4-0.5. Valores < 0.1 causan fallos catastróficos (CER >40%).
3.**Componentes innecesarios para PDFs digitales**: `use_doc_orientation_classify` y `use_doc_unwarping` no mejoran el rendimiento en documentos académicos digitales.
- **Resultados Ray Tune**: `src/raytune_paddle_subproc_results_20251207_192320.csv`
---
## Trabajo Pendiente para Completar el TFM
### Contexto: Limitaciones de Hardware
Este trabajo adoptó la estrategia de **optimización de hiperparámetros** en lugar de **fine-tuning** debido a:
- **Sin GPU dedicada**: Ejecución exclusivamente en CPU
- **Tiempo de inferencia elevado**: ~69 segundos/página en CPU
- **Fine-tuning inviable**: Entrenar modelos de deep learning sin GPU requeriría tiempos prohibitivos
La optimización de hiperparámetros demostró ser una **alternativa efectiva** al fine-tuning, logrando una reducción del 80.9% en el CER sin reentrenar el modelo.
### Tareas Pendientes
#### 1. Validación del Enfoque (Prioridad Alta)
- [ ]**Validación cruzada en otros documentos**: Evaluar la configuración óptima en otros tipos de documentos en español (facturas, formularios, contratos) para verificar generalización
- [ ]**Ampliar el dataset**: El dataset actual tiene solo 24 páginas. Construir un corpus más amplio y diverso (mínimo 100 páginas)
- [ ]**Validación del ground truth**: Revisar manualmente el texto de referencia extraído automáticamente para asegurar su exactitud
- [ ]**Explorar `text_det_unclip_ratio`**: Este parámetro quedó fijado en 0.0. Incluirlo en el espacio de búsqueda podría mejorar resultados
- [ ]**Comparativa con fine-tuning** (si se obtiene acceso a GPU): Cuantificar la brecha de rendimiento entre optimización de hiperparámetros y fine-tuning real
- [ ]**Evaluación con GPU**: Medir tiempos de inferencia con aceleración GPU para escenarios de producción
#### 3. Documentación y Presentación (Prioridad Alta)
- [ ]**Completar memoria TFM**: Unificar los capítulos del directorio `docs/` en documento final siguiendo plantilla UNIR
- [ ]**Crear presentación**: Preparar slides para la defensa del TFM
- [ ]**Herramienta de configuración automática**: Desarrollar una herramienta que determine automáticamente la configuración óptima para un nuevo tipo de documento
- [ ]**Benchmark público para español**: Publicar un benchmark de OCR para documentos en español que facilite comparación de soluciones
- [ ]**Optimización multi-objetivo**: Considerar CER, WER y tiempo de inferencia simultáneamente
### Recomendación de Próximos Pasos
1.**Inmediato**: Validar en 2-3 tipos de documentos adicionales para demostrar generalización
2.**Corto plazo**: Ampliar dataset y revisar ground truth manualmente
3.**Para la defensa**: Completar memoria unificada y crear presentación con visualizaciones
---
## Licencia
Este proyecto es parte de un Trabajo Fin de Máster académico.