# Slide 7 — Methodology: 5 Phases (~1.5 minutes) **What to say:** "La metodología se estructura en cinco fases experimentales. En la Fase 1, preparamos el dataset: convertimos el PDF de las instrucciones del TFE de la UNIR a imágenes PNG a 300 DPI, y extrajimos el ground truth con PyMuPDF. El corpus final tiene 45 páginas. En la Fase 2, realizamos el benchmark comparativo de los tres motores OCR usando las métricas CER y WER sobre un subconjunto inicial de 5 páginas. Aquí es donde seleccionamos PaddleOCR. La Fase 3 consistió en definir el espacio de búsqueda: identificamos 7 hiperparámetros de PaddleOCR relevantes para la inferencia. En la Fase 4, ejecutamos la optimización: 64 ensayos automatizados usando Ray Tune con el algoritmo TPE de Optuna, ejecutados en GPU. Y en la Fase 5, validamos la configuración óptima sobre las 45 páginas completas, comparando contra el baseline. Esta estructura en fases garantiza la reproducibilidad del experimento y permite que otros investigadores repliquen el proceso con diferentes motores OCR o tipos de documento." **Tips:** - Point to each phase in the figure as you explain it - Keep it concise — the details come in later slides - Emphasize "reproducibilidad" — it's a key contribution