Motivación

  • La digitalización documental es una necesidad estratégica para organizaciones
  • OCR como puente entre el mundo físico y digital
  • Documentos en español: caracteres especiales ausentes en conjuntos de entrenamiento internacionales
  • Modelos preentrenados: rendimiento subóptimo fuera de benchmarks estándar
  • Fine-tuning requiere infraestructura costosa y datos etiquetados

Errores típicos en español

OriginalOCRError
másmasPérdida de acento
añoanoPérdida de eñe
¿CómoComoSignos especiales
titulacióntitulacióonDuplicación