Motivación
- La digitalización documental es una necesidad estratégica para organizaciones
- OCR como puente entre el mundo físico y digital
- Documentos en español: caracteres especiales ausentes en conjuntos de entrenamiento internacionales
- Modelos preentrenados: rendimiento subóptimo fuera de benchmarks estándar
- Fine-tuning requiere infraestructura costosa y datos etiquetados
Errores típicos en español
| Original | OCR | Error |
| más | mas | Pérdida de acento |
| año | ano | Pérdida de eñe |
| ¿Cómo | Como | Signos especiales |
| titulación | titulacióon | Duplicación |