plain image manifests
Some checks failed
build_docker / essential (push) Successful in 0s
build_docker / build_paddle_ocr (push) Failing after 4m7s
build_docker / build_easyocr_gpu (push) Has been cancelled
build_docker / build_doctr (push) Has been cancelled
build_docker / build_doctr_gpu (push) Has been cancelled
build_docker / build_raytune (push) Has been cancelled
build_docker / build_paddle_ocr_gpu (push) Has been cancelled
build_docker / build_easyocr (push) Has been cancelled

This commit is contained in:
2026-04-21 20:54:59 +02:00
parent 5351d4a57b
commit 569a7bca4a
7 changed files with 110 additions and 90 deletions

View File

@@ -6,11 +6,11 @@
¿Por qué? Porque los modelos preentrenados se entrenan mayoritariamente con datasets internacionales donde los caracteres específicos del español — las tildes, la eñe, los signos de interrogación y exclamación invertidos — están infrarrepresentados.
Como pueden ver en la tabla, los errores típicos incluyen la pérdida de acentos, como 'información' que se convierte en 'informacion'; la eñe que se confunde con una ene; y artefactos de duplicación. Estos errores no son anecdóticos: afectan la precisión en entornos reales como archivos académicos, registros legales o facturación.
Como pueden ver en la tabla, los errores típicos incluyen la pérdida de acentos, como 'más' que se convierte en 'mas'; la eñe que se confunde con una ene; y artefactos de duplicación. Estos errores no son anecdóticos: afectan la precisión en entornos reales como archivos académicos, registros legales o facturación.
La solución habitual es el fine-tuning, pero esto requiere datasets etiquetados extensos y una infraestructura costosa. La pregunta que nos planteamos es: ¿se puede mejorar significativamente un modelo OCR sin necesidad de reentrenarlo?"
Este trabajo se enmarca en el campo del AutoML — Automated Machine Learning — aplicado a la optimización de configuraciones de inferencia. La mayor parte de la investigación en AutoML se centra en la fase de entrenamiento: selección de arquitecturas, learning rates, regularización. Sin embargo, los modelos OCR modernos exponen numerosos hiperparámetros en la fase de inferencia que permanecen sin explorar. Nuestra hipótesis es que estos modelos preentrenados contienen capacidades latentes que pueden activarse mediante la configuración óptima de su pipeline de inferencia."
**Tips:**
- Point to the error table when you mention specific examples
- Emphasize the practical relevance — this isn't just academic
- The rhetorical question at the end bridges naturally to the next slide
- Emphasize AutoML as the AI framework — this positions the work within a recognized AI subfield
- "Capacidades latentes" is the key concept — the model already knows, we just need to configure it right