docs/05_conclusiones_trabajo_futuro.md

# Capítulo 5: Conclusiones y Trabajo Futuro

## 5.1 Conclusiones

### 5.1.1 Conclusiones Generales

Este Trabajo Fin de Máster ha demostrado que es posible mejorar significativamente el rendimiento de sistemas OCR preentrenados mediante optimización sistemática de hiperparámetros, sin requerir fine-tuning ni recursos GPU dedicados.

El objetivo principal del trabajo era alcanzar un CER inferior al 2% en documentos académicos en español. Los resultados obtenidos confirman el cumplimiento de este objetivo:

| Métrica | Objetivo | Resultado |
|---------|----------|-----------|
| CER | < 2% | **1.49%** |

### 5.1.2 Conclusiones Específicas

**Respecto a OE1 (Comparativa de soluciones OCR)**:
- Se evaluaron tres soluciones OCR de código abierto: EasyOCR, PaddleOCR (PP-OCRv5) y DocTR
- PaddleOCR demostró el mejor rendimiento base para documentos en español
- La configurabilidad del pipeline de PaddleOCR lo hace idóneo para optimización

**Respecto a OE2 (Preparación del dataset)**:
- Se construyó un dataset estructurado con 24 páginas de documentos académicos
- La clase `ImageTextDataset` facilita la carga de pares imagen-texto
- El ground truth se extrajo automáticamente del PDF mediante PyMuPDF

**Respecto a OE3 (Identificación de hiperparámetros críticos)**:
- El parámetro `textline_orientation` es el más influyente: reduce el CER en un 69.7% cuando está habilitado
- El umbral `text_det_thresh` presenta la correlación más fuerte (-0.52) con el CER
- Los parámetros de corrección de documento (`use_doc_orientation_classify`, `use_doc_unwarping`) no aportan mejora en documentos digitales

**Respecto a OE4 (Optimización con Ray Tune)**:
- Se ejecutaron 64 trials con el algoritmo OptunaSearch
- El tiempo total del experimento fue aproximadamente 6 horas (en CPU)
- La arquitectura basada en subprocesos permitió superar incompatibilidades entre Ray y PaddleOCR

**Respecto a OE5 (Validación de la configuración)**:
- Se validó la configuración óptima sobre el dataset completo de 24 páginas
- La mejora obtenida fue del 80.9% en reducción del CER (7.78% → 1.49%)
- La precisión de caracteres alcanzó el 98.51%

### 5.1.3 Hallazgos Clave

1. **Arquitectura sobre umbrales**: Un único parámetro booleano (`textline_orientation`) tiene más impacto que todos los umbrales continuos combinados.

2. **Umbrales mínimos efectivos**: Valores de `text_det_thresh` < 0.1 causan fallos catastróficos (CER >40%).

3. **Simplicidad para documentos digitales**: Para documentos PDF digitales (no escaneados), los módulos de corrección de orientación y deformación son innecesarios.

4. **Optimización sin fine-tuning**: Se puede mejorar significativamente el rendimiento de modelos preentrenados mediante ajuste de hiperparámetros de inferencia.

### 5.1.4 Contribuciones del Trabajo

1. **Metodología reproducible**: Se documenta un proceso completo de optimización de hiperparámetros OCR con Ray Tune + Optuna.

2. **Análisis de hiperparámetros de PaddleOCR**: Se cuantifica el impacto de cada parámetro configurable mediante correlaciones y análisis comparativo.

3. **Configuración óptima para español**: Se proporciona una configuración validada para documentos académicos en español.

4. **Código fuente**: Todo el código está disponible en el repositorio GitHub para reproducción y extensión.

### 5.1.5 Limitaciones del Trabajo

1. **Tipo de documento único**: Los experimentos se realizaron únicamente sobre documentos académicos de UNIR. La generalización a otros tipos de documentos requiere validación adicional.

2. **Tamaño del dataset**: 24 páginas es un corpus limitado para conclusiones estadísticamente robustas.

3. **Ground truth automático**: La extracción automática del texto de referencia puede introducir errores en layouts complejos.

4. **Ejecución en CPU**: Los tiempos de procesamiento (~69s/página) limitan la aplicabilidad en escenarios de alto volumen.

5. **Parámetro no explorado**: `text_det_unclip_ratio` permaneció fijo en 0.0 durante todo el experimento.

## 5.2 Líneas de Trabajo Futuro

### 5.2.1 Extensiones Inmediatas

1. **Validación cruzada**: Evaluar la configuración óptima en otros tipos de documentos en español (facturas, formularios, textos manuscritos).

2. **Exploración de `text_det_unclip_ratio`**: Incluir este parámetro en el espacio de búsqueda.

3. **Dataset ampliado**: Construir un corpus más amplio y diverso de documentos en español.

4. **Evaluación con GPU**: Medir tiempos de inferencia con aceleración GPU.

### 5.2.2 Líneas de Investigación

1. **Transfer learning de hiperparámetros**: Investigar si las configuraciones óptimas para un tipo de documento transfieren a otros dominios.

2. **Optimización multi-objetivo**: Considerar simultáneamente CER, WER y tiempo de inferencia como objetivos.

3. **AutoML para OCR**: Aplicar técnicas de AutoML más avanzadas (Neural Architecture Search, meta-learning).

4. **Comparación con fine-tuning**: Cuantificar la brecha de rendimiento entre optimización de hiperparámetros y fine-tuning real.

### 5.2.3 Aplicaciones Prácticas

1. **Herramienta de configuración automática**: Desarrollar una herramienta que determine automáticamente la configuración óptima para un nuevo tipo de documento.

2. **Integración en pipelines de producción**: Implementar la configuración optimizada en sistemas reales de procesamiento documental.

3. **Benchmark público**: Publicar un benchmark de OCR para documentos en español que facilite la comparación de soluciones.

### 5.2.4 Reflexión Final

Este trabajo demuestra que, en un contexto de recursos limitados donde el fine-tuning de modelos de deep learning no es viable, la optimización de hiperparámetros representa una alternativa práctica y efectiva para mejorar sistemas OCR.

La metodología propuesta es reproducible, los resultados son cuantificables, y las conclusiones son aplicables a escenarios reales de procesamiento documental. La reducción del CER del 7.78% al 1.49% representa una mejora sustancial que puede tener impacto directo en aplicaciones downstream como extracción de información, análisis semántico y búsqueda de documentos.

El código fuente y los datos experimentales están disponibles públicamente para facilitar la reproducción y extensión de este trabajo.
Add references to each chapter 2025-12-10 22:34:33 +01:00			`# Capítulo 5: Conclusiones y Trabajo Futuro`
Markdown chapters. 2025-12-10 16:06:47 +01:00
Add references to each chapter 2025-12-10 22:34:33 +01:00			`## 5.1 Conclusiones`
Markdown chapters. 2025-12-10 16:06:47 +01:00
Add references to each chapter 2025-12-10 22:34:33 +01:00			`### 5.1.1 Conclusiones Generales`
Markdown chapters. 2025-12-10 16:06:47 +01:00
			`Este Trabajo Fin de Máster ha demostrado que es posible mejorar significativamente el rendimiento de sistemas OCR preentrenados mediante optimización sistemática de hiperparámetros, sin requerir fine-tuning ni recursos GPU dedicados.`

			`El objetivo principal del trabajo era alcanzar un CER inferior al 2% en documentos académicos en español. Los resultados obtenidos confirman el cumplimiento de este objetivo:`

			`\| Métrica \| Objetivo \| Resultado \|`
			`\|---------\|----------\|-----------\|`
			`\| CER \| < 2% \| 1.49% \|`

Add references to each chapter 2025-12-10 22:34:33 +01:00			`### 5.1.2 Conclusiones Específicas`
Markdown chapters. 2025-12-10 16:06:47 +01:00
			`Respecto a OE1 (Comparativa de soluciones OCR):`
			`- Se evaluaron tres soluciones OCR de código abierto: EasyOCR, PaddleOCR (PP-OCRv5) y DocTR`
			`- PaddleOCR demostró el mejor rendimiento base para documentos en español`
			`- La configurabilidad del pipeline de PaddleOCR lo hace idóneo para optimización`

			`Respecto a OE2 (Preparación del dataset):`
			`- Se construyó un dataset estructurado con 24 páginas de documentos académicos`
			- La clase `ImageTextDataset` facilita la carga de pares imagen-texto
			`- El ground truth se extrajo automáticamente del PDF mediante PyMuPDF`

			`Respecto a OE3 (Identificación de hiperparámetros críticos):`
			- El parámetro `textline_orientation` es el más influyente: reduce el CER en un 69.7% cuando está habilitado
			- El umbral `text_det_thresh` presenta la correlación más fuerte (-0.52) con el CER
			- Los parámetros de corrección de documento (`use_doc_orientation_classify`, `use_doc_unwarping`) no aportan mejora en documentos digitales

			`Respecto a OE4 (Optimización con Ray Tune):`
			`- Se ejecutaron 64 trials con el algoritmo OptunaSearch`
			`- El tiempo total del experimento fue aproximadamente 6 horas (en CPU)`
			`- La arquitectura basada en subprocesos permitió superar incompatibilidades entre Ray y PaddleOCR`

			`Respecto a OE5 (Validación de la configuración):`
			`- Se validó la configuración óptima sobre el dataset completo de 24 páginas`
			`- La mejora obtenida fue del 80.9% en reducción del CER (7.78% → 1.49%)`
			`- La precisión de caracteres alcanzó el 98.51%`

Add references to each chapter 2025-12-10 22:34:33 +01:00			`### 5.1.3 Hallazgos Clave`
Markdown chapters. 2025-12-10 16:06:47 +01:00
			1. Arquitectura sobre umbrales: Un único parámetro booleano (`textline_orientation`) tiene más impacto que todos los umbrales continuos combinados.

			2. Umbrales mínimos efectivos: Valores de `text_det_thresh` < 0.1 causan fallos catastróficos (CER >40%).

			`3. Simplicidad para documentos digitales: Para documentos PDF digitales (no escaneados), los módulos de corrección de orientación y deformación son innecesarios.`

			`4. Optimización sin fine-tuning: Se puede mejorar significativamente el rendimiento de modelos preentrenados mediante ajuste de hiperparámetros de inferencia.`

Add references to each chapter 2025-12-10 22:34:33 +01:00			`### 5.1.4 Contribuciones del Trabajo`
Markdown chapters. 2025-12-10 16:06:47 +01:00
			`1. Metodología reproducible: Se documenta un proceso completo de optimización de hiperparámetros OCR con Ray Tune + Optuna.`

			`2. Análisis de hiperparámetros de PaddleOCR: Se cuantifica el impacto de cada parámetro configurable mediante correlaciones y análisis comparativo.`

			`3. Configuración óptima para español: Se proporciona una configuración validada para documentos académicos en español.`

			`4. Código fuente: Todo el código está disponible en el repositorio GitHub para reproducción y extensión.`

Add references to each chapter 2025-12-10 22:34:33 +01:00			`### 5.1.5 Limitaciones del Trabajo`
Markdown chapters. 2025-12-10 16:06:47 +01:00
			`1. Tipo de documento único: Los experimentos se realizaron únicamente sobre documentos académicos de UNIR. La generalización a otros tipos de documentos requiere validación adicional.`

			`2. Tamaño del dataset: 24 páginas es un corpus limitado para conclusiones estadísticamente robustas.`

			`3. Ground truth automático: La extracción automática del texto de referencia puede introducir errores en layouts complejos.`

			`4. Ejecución en CPU: Los tiempos de procesamiento (~69s/página) limitan la aplicabilidad en escenarios de alto volumen.`

			5. Parámetro no explorado: `text_det_unclip_ratio` permaneció fijo en 0.0 durante todo el experimento.

Add references to each chapter 2025-12-10 22:34:33 +01:00			`## 5.2 Líneas de Trabajo Futuro`
Markdown chapters. 2025-12-10 16:06:47 +01:00
Add references to each chapter 2025-12-10 22:34:33 +01:00			`### 5.2.1 Extensiones Inmediatas`
Markdown chapters. 2025-12-10 16:06:47 +01:00
			`1. Validación cruzada: Evaluar la configuración óptima en otros tipos de documentos en español (facturas, formularios, textos manuscritos).`

			2. Exploración de `text_det_unclip_ratio`: Incluir este parámetro en el espacio de búsqueda.

			`3. Dataset ampliado: Construir un corpus más amplio y diverso de documentos en español.`

			`4. Evaluación con GPU: Medir tiempos de inferencia con aceleración GPU.`

Add references to each chapter 2025-12-10 22:34:33 +01:00			`### 5.2.2 Líneas de Investigación`
Markdown chapters. 2025-12-10 16:06:47 +01:00
			`1. Transfer learning de hiperparámetros: Investigar si las configuraciones óptimas para un tipo de documento transfieren a otros dominios.`

			`2. Optimización multi-objetivo: Considerar simultáneamente CER, WER y tiempo de inferencia como objetivos.`

			`3. AutoML para OCR: Aplicar técnicas de AutoML más avanzadas (Neural Architecture Search, meta-learning).`

			`4. Comparación con fine-tuning: Cuantificar la brecha de rendimiento entre optimización de hiperparámetros y fine-tuning real.`

Add references to each chapter 2025-12-10 22:34:33 +01:00			`### 5.2.3 Aplicaciones Prácticas`
Markdown chapters. 2025-12-10 16:06:47 +01:00
			`1. Herramienta de configuración automática: Desarrollar una herramienta que determine automáticamente la configuración óptima para un nuevo tipo de documento.`

			`2. Integración en pipelines de producción: Implementar la configuración optimizada en sistemas reales de procesamiento documental.`

			`3. Benchmark público: Publicar un benchmark de OCR para documentos en español que facilite la comparación de soluciones.`

Add references to each chapter 2025-12-10 22:34:33 +01:00			`### 5.2.4 Reflexión Final`
Markdown chapters. 2025-12-10 16:06:47 +01:00
			`Este trabajo demuestra que, en un contexto de recursos limitados donde el fine-tuning de modelos de deep learning no es viable, la optimización de hiperparámetros representa una alternativa práctica y efectiva para mejorar sistemas OCR.`

			`La metodología propuesta es reproducible, los resultados son cuantificables, y las conclusiones son aplicables a escenarios reales de procesamiento documental. La reducción del CER del 7.78% al 1.49% representa una mejora sustancial que puede tener impacto directo en aplicaciones downstream como extracción de información, análisis semántico y búsqueda de documentos.`

			`El código fuente y los datos experimentales están disponibles públicamente para facilitar la reproducción y extensión de este trabajo.`