pdf
Some checks failed
build_docker / essential (push) Successful in 1s
build_docker / build_paddle_ocr (push) Failing after 4m34s
build_docker / build_easyocr (push) Has been cancelled
build_docker / build_easyocr_gpu (push) Has been cancelled
build_docker / build_doctr (push) Has been cancelled
build_docker / build_doctr_gpu (push) Has been cancelled
build_docker / build_raytune (push) Has been cancelled
build_docker / build_paddle_ocr_gpu (push) Has been cancelled
Some checks failed
build_docker / essential (push) Successful in 1s
build_docker / build_paddle_ocr (push) Failing after 4m34s
build_docker / build_easyocr (push) Has been cancelled
build_docker / build_easyocr_gpu (push) Has been cancelled
build_docker / build_doctr (push) Has been cancelled
build_docker / build_doctr_gpu (push) Has been cancelled
build_docker / build_raytune (push) Has been cancelled
build_docker / build_paddle_ocr_gpu (push) Has been cancelled
This commit is contained in:
16
thesis_output/presentation/slides/03_script.md
Normal file
16
thesis_output/presentation/slides/03_script.md
Normal file
@@ -0,0 +1,16 @@
|
||||
# Slide 3 — Motivation (~1.5 minutes)
|
||||
|
||||
**What to say:**
|
||||
|
||||
"La digitalización de documentos es una necesidad estratégica para cualquier organización. El OCR es el puente entre el mundo físico y el digital, pero los sistemas actuales presentan problemas significativos con documentos en español.
|
||||
|
||||
¿Por qué? Porque los modelos preentrenados se entrenan mayoritariamente con datasets internacionales donde los caracteres específicos del español — las tildes, la eñe, los signos de interrogación y exclamación invertidos — están infrarrepresentados.
|
||||
|
||||
Como pueden ver en la tabla, los errores típicos incluyen la pérdida de acentos, como 'información' que se convierte en 'informacion'; la eñe que se confunde con una ene; y artefactos de duplicación. Estos errores no son anecdóticos: afectan la precisión en entornos reales como archivos académicos, registros legales o facturación.
|
||||
|
||||
La solución habitual es el fine-tuning, pero esto requiere datasets etiquetados extensos y una infraestructura costosa. La pregunta que nos planteamos es: ¿se puede mejorar significativamente un modelo OCR sin necesidad de reentrenarlo?"
|
||||
|
||||
**Tips:**
|
||||
- Point to the error table when you mention specific examples
|
||||
- Emphasize the practical relevance — this isn't just academic
|
||||
- The rhetorical question at the end bridges naturally to the next slide
|
||||
Reference in New Issue
Block a user