From d6160e8e7e348185af7fdad7241128c494d15e1b Mon Sep 17 00:00:00 2001
From: sergio Figura {figure_counter}. {fig_title} [Insertar diagrama Mermaid aquí] Los sistemas OCR modernos siguen típicamente un pipeline de dos etapas principales, precedidas opcionalmente por una fase de preprocesamiento: Figura 1. Pipeline de un sistema OCR moderno Fuente: Elaboración propia.

Etapa de Preprocesamiento
@@ -4880,7 +4880,7 @@ Configuraciones con alta probabilidad bajo
4. Acceder a las visualizaciones de Optuna
Figura 2. Ciclo de optimización con Ray Tune y Optuna
-

Fuente: Elaboración propia.
Figura 3. Fases de la metodología experimental
-

Fuente: Elaboración propia.
Descripción de las fases:
@@ -4978,7 +4978,7 @@ concretos y metodología de trabajo - Método: page.get_text("dict") de PyMuPDF - Preservación de estructura de líneas - Tratamiento de texto vertical/marginal - Normalización de espacios y saltos de líneaFigura 4. Estructura del dataset de evaluación
-

Fuente: Elaboración propia.
Esta arquitectura containerizada permite ejecutar cada componente en su entorno aislado óptimo, comunicándose via API REST:
Figura 5. Arquitectura de ejecución con Docker Compose
-

Fuente: Elaboración propia.
La arquitectura containerizada (src/docker-compose.tuning.*.yml) ofrece:
@@ -5263,13 +5263,13 @@ docker compose -f docker-compose.tuning.doctr.yml downFigura 6. Arquitectura de microservicios para optimización OCR
-

Fuente: Elaboración propia.
Los Dockerfiles utilizan una estrategia de build multi-stage para optimizar tiempos de construcción y tamaño de imágenes:
Figura 7. Estrategia de build multi-stage
-

Fuente: Elaboración propia.
Ventajas de esta estrategia:
@@ -5303,7 +5303,7 @@ docker compose -f docker-compose.tuning.doctr.yml down· DocTR: 180 segundos (modelos ResNet más pesados)
Figura 8. Flujo de ejecución de optimización con Ray Tune
-

Fuente: Elaboración propia.
1. Menor varianza: La desviación estándar también se reduce significativamente (7.12% vs 14.93%), indicando resultados más consistentes.
1. Reducción del CER: 69.7% cuando se habilita la clasificación de orientación de línea.
Figura 9. Impacto de textline_orientation en CER
-

Fuente: Elaboración propia.
Explicación técnica:
@@ -5452,7 +5452,7 @@ Configuración óptima:Fuente: Elaboración propia.
Figura 10. Reducción de errores: Baseline vs Optimizado (45 páginas)
-

Fuente: Elaboración propia.
Leyenda: CER = Character Error Rate, WER = Word Error Rate. Baseline = configuración por defecto de PaddleOCR. Optimizado = configuración encontrada por Ray Tune. Los valores corresponden al dataset completo de 45 páginas.
@@ -5755,7 +5755,7 @@ major-latin;mso-bidi-font-family:"Calibri Light";mso-bidi-theme-font:major-latin· Resultados: Archivos CSV con los resultados de los 64 trials por servicio
Figura 11. Estructura del repositorio MastersThesis
-

Fuente: Elaboración propia.
Tabla 56. Descripción de directorios principales.