# Slide 3 — Motivation (~1.5 minutes) **What to say:** "La digitalización de documentos es una necesidad estratégica para cualquier organización. El OCR es el puente entre el mundo físico y el digital, pero los sistemas actuales presentan problemas significativos con documentos en español. ¿Por qué? Porque los modelos preentrenados se entrenan mayoritariamente con datasets internacionales donde los caracteres específicos del español — las tildes, la eñe, los signos de interrogación y exclamación invertidos — están infrarrepresentados. Como pueden ver en la tabla, los errores típicos incluyen la pérdida de acentos, como 'información' que se convierte en 'informacion'; la eñe que se confunde con una ene; y artefactos de duplicación. Estos errores no son anecdóticos: afectan la precisión en entornos reales como archivos académicos, registros legales o facturación. La solución habitual es el fine-tuning, pero esto requiere datasets etiquetados extensos y una infraestructura costosa. La pregunta que nos planteamos es: ¿se puede mejorar significativamente un modelo OCR sin necesidad de reentrenarlo?" **Tips:** - Point to the error table when you mention specific examples - Emphasize the practical relevance — this isn't just academic - The rhetorical question at the end bridges naturally to the next slide