pdf

2026-04-21 20:46:05 +02:00
parent 9c59ff0f6d
commit 5351d4a57b
23 changed files with 921 additions and 210 deletions
--- a/thesis_output/presentation/slides/03_script.md
+++ b/thesis_output/presentation/slides/03_script.md
@@ -0,0 +1,16 @@
+# Slide 3 — Motivation (~1.5 minutes)
+
+**What to say:**
+
+"La digitalización de documentos es una necesidad estratégica para cualquier organización. El OCR es el puente entre el mundo físico y el digital, pero los sistemas actuales presentan problemas significativos con documentos en español.
+
+¿Por qué? Porque los modelos preentrenados se entrenan mayoritariamente con datasets internacionales donde los caracteres específicos del español — las tildes, la eñe, los signos de interrogación y exclamación invertidos — están infrarrepresentados.
+
+Como pueden ver en la tabla, los errores típicos incluyen la pérdida de acentos, como 'información' que se convierte en 'informacion'; la eñe que se confunde con una ene; y artefactos de duplicación. Estos errores no son anecdóticos: afectan la precisión en entornos reales como archivos académicos, registros legales o facturación.
+
+La solución habitual es el fine-tuning, pero esto requiere datasets etiquetados extensos y una infraestructura costosa. La pregunta que nos planteamos es: ¿se puede mejorar significativamente un modelo OCR sin necesidad de reentrenarlo?"
+
+**Tips:**
+- Point to the error table when you mention specific examples
+- Emphasize the practical relevance — this isn't just academic
+- The rhetorical question at the end bridges naturally to the next slide