Files

23 lines
1.2 KiB
Markdown
Raw Permalink Normal View History

2026-04-21 20:46:05 +02:00
# Slide 7 — Methodology: 5 Phases (~1.5 minutes)
**What to say:**
"La metodología se estructura en cinco fases experimentales.
En la Fase 1, preparamos el dataset: convertimos el PDF de las instrucciones del TFE de la UNIR a imágenes PNG a 300 DPI, y extrajimos el ground truth con PyMuPDF. El corpus final tiene 45 páginas.
En la Fase 2, realizamos el benchmark comparativo de los tres motores OCR usando las métricas CER y WER sobre un subconjunto inicial de 5 páginas. Aquí es donde seleccionamos PaddleOCR.
La Fase 3 consistió en definir el espacio de búsqueda: identificamos 7 hiperparámetros de PaddleOCR relevantes para la inferencia.
En la Fase 4, ejecutamos la optimización: 64 ensayos automatizados usando Ray Tune con el algoritmo TPE de Optuna, ejecutados en GPU.
Y en la Fase 5, validamos la configuración óptima sobre las 45 páginas completas, comparando contra el baseline.
Esta estructura en fases garantiza la reproducibilidad del experimento y permite que otros investigadores repliquen el proceso con diferentes motores OCR o tipos de documento."
**Tips:**
- Point to each phase in the figure as you explain it
- Keep it concise — the details come in later slides
- Emphasize "reproducibilidad" — it's a key contribution