diff --git a/apply_content.py b/apply_content.py index 40b1060..ab963c2 100644 --- a/apply_content.py +++ b/apply_content.py @@ -109,8 +109,8 @@ def parse_md_to_html_blocks(md_content): html_blocks.append(f'''

Figura {figure_counter}. {fig_title}

''') if os.path.exists(fig_path): - # Use actual image with proper Word-compatible format - html_blocks.append(f'''

{fig_title}

''') + # Use actual image with proper Word-compatible format (max 400px width, 500px height to fit page) + html_blocks.append(f'''

{fig_title}

''') else: # Fallback to placeholder html_blocks.append(f'''

[Insertar diagrama Mermaid aquí]

''') diff --git a/docs/03_objetivos_metodologia.md b/docs/03_objetivos_metodologia.md index d4ab8a5..ffbd918 100644 --- a/docs/03_objetivos_metodologia.md +++ b/docs/03_objetivos_metodologia.md @@ -40,37 +40,18 @@ Este capítulo establece los objetivos del trabajo siguiendo la metodología SMA ```mermaid - -flowchart TD - A["Fase 1: Preparación del Dataset
- • Conversión PDF → Imágenes (300 DPI)
- • Extracción de texto de referencia (PyMuPDF)
- • Estructura: carpetas img/ y txt/ pareadas"] - - B["Fase 2: Benchmark Comparativo
- • Evaluación de EasyOCR, PaddleOCR, DocTR
- • Métricas: CER, WER
- • Selección del modelo base"] - - C["Fase 3: Definición del Espacio de Búsqueda
- • Identificación de hiperparámetros configurables
- • Definición de rangos y distribuciones
- • Configuración de Ray Tune + Optuna"] - - D["Fase 4: Optimización de Hiperparámetros
- • Ejecución de 64 trials con Ray Tune
- • Paralelización (2 trials concurrentes)
- • Registro de métricas y configuraciones"] - - E["Fase 5: Validación y Análisis
- • Comparación baseline vs optimizado
- • Análisis de correlaciones
- • Documentación de resultados"] - - A --> B --> C --> D --> E - +flowchart LR + A["Fase 1
Dataset"] --> B["Fase 2
Benchmark"] --> C["Fase 3
Espacio"] --> D["Fase 4
Optimización"] --> E["Fase 5
Validación"] ``` +**Descripción de las fases:** + +- **Fase 1 - Preparación del Dataset**: Conversión PDF a imágenes (300 DPI), extracción de ground truth con PyMuPDF +- **Fase 2 - Benchmark Comparativo**: Evaluación de EasyOCR, PaddleOCR, DocTR con métricas CER/WER +- **Fase 3 - Espacio de Búsqueda**: Identificación de hiperparámetros y configuración de Ray Tune + Optuna +- **Fase 4 - Optimización**: Ejecución de 64 trials con paralelización (2 concurrentes) +- **Fase 5 - Validación**: Comparación baseline vs optimizado, análisis de correlaciones + ### Fase 1: Preparación del Dataset #### Fuente de Datos diff --git a/generate_mermaid_figures.py b/generate_mermaid_figures.py index a2e5ce7..4064dcb 100644 --- a/generate_mermaid_figures.py +++ b/generate_mermaid_figures.py @@ -61,10 +61,10 @@ def convert_to_png(diagrams): with open(temp_file, 'w', encoding='utf-8') as f: f.write(diagram['code']) - # Convert using mmdc + # Convert using mmdc with higher resolution for better readability try: result = subprocess.run( - [MMDC, '-i', temp_file, '-o', output_file, '-b', 'white', '-w', '800'], + [MMDC, '-i', temp_file, '-o', output_file, '-b', 'white', '-w', '1600', '-s', '2'], capture_output=True, text=True, timeout=60 diff --git a/thesis_output/figures/figura_1.png b/thesis_output/figures/figura_1.png index ee9271b..e88db68 100644 Binary files a/thesis_output/figures/figura_1.png and b/thesis_output/figures/figura_1.png differ diff --git a/thesis_output/figures/figura_2.png b/thesis_output/figures/figura_2.png index 802200f..25ace56 100644 Binary files a/thesis_output/figures/figura_2.png and b/thesis_output/figures/figura_2.png differ diff --git a/thesis_output/figures/figura_3.png b/thesis_output/figures/figura_3.png index 1c4c254..4f062df 100644 Binary files a/thesis_output/figures/figura_3.png and b/thesis_output/figures/figura_3.png differ diff --git a/thesis_output/figures/figura_4.png b/thesis_output/figures/figura_4.png index f6aa146..ec968d5 100644 Binary files a/thesis_output/figures/figura_4.png and b/thesis_output/figures/figura_4.png differ diff --git a/thesis_output/figures/figura_5.png b/thesis_output/figures/figura_5.png index b83b7fc..d099975 100644 Binary files a/thesis_output/figures/figura_5.png and b/thesis_output/figures/figura_5.png differ diff --git a/thesis_output/figures/figura_6.png b/thesis_output/figures/figura_6.png index a6a559c..f163eb0 100644 Binary files a/thesis_output/figures/figura_6.png and b/thesis_output/figures/figura_6.png differ diff --git a/thesis_output/figures/figura_7.png b/thesis_output/figures/figura_7.png index 2704c1b..5ccd07b 100644 Binary files a/thesis_output/figures/figura_7.png and b/thesis_output/figures/figura_7.png differ