MastersThesis/thesis_output/presentation/slides/14_script.md

# Slide 14 — Validation: Baseline vs Optimized (~1.5 minutes)

**What to say:**

"Pasamos a la validación sobre el dataset completo de 45 páginas — objetivo específico OE5.

El CER baseline era del 8.85%. Con la configuración optimizada, se reduce a 7.72%, una mejora relativa del 12.8%. El WER pasa de 13.05% a 11.40%, una mejora similar del 12.6%.

Ahora, es importante ser transparente: el mejor ensayo individual sobre las 5 páginas de optimización alcanzó un CER del 0.79%, lo cual contrasta con el 7.72% sobre el dataset completo.

Esta diferencia nos indica que hay un grado de overfitting al subconjunto de optimización. Las 5 páginas utilizadas para la búsqueda no capturan toda la variabilidad del documento completo de 45 páginas.

Esto es una limitación que identificamos honestamente, y la recomendación directa es utilizar un subconjunto mayor — de 15 a 20 páginas — para mejorar la generalización. A pesar de esta limitación, la mejora del 12.8% sobre el dataset completo demuestra que la optimización tiene un efecto positivo real y generalizable."

**Tips:**
- Be honest about the overfitting gap — the tribunal will respect transparency
- "12.8% improvement" is still significant even with the caveat
- Frame the limitation as a clear future improvement, not a failure
- Point to the comparison chart