pdf

2026-04-21 20:46:05 +02:00
parent 9c59ff0f6d
commit 5351d4a57b
23 changed files with 921 additions and 210 deletions
--- a/thesis_output/presentation/slides/06_script.md
+++ b/thesis_output/presentation/slides/06_script.md
@@ -0,0 +1,18 @@
+# Slide 6 — State of the Art: OCR Engines (~1.5 minutes)
+
+**What to say:**
+
+"Antes de optimizar, necesitábamos seleccionar el motor OCR más adecuado. Evaluamos tres soluciones de código abierto.
+
+EasyOCR, de JaidedAI, utiliza una arquitectura CRAFT más CRNN, soporta más de 80 idiomas, y es muy fácil de usar. Sin embargo, tiene baja configurabilidad de hiperparámetros, lo cual limita las posibilidades de optimización.
+
+DocTR, de Mindee, ofrece buena velocidad de inferencia con una arquitectura DB más CRNN o SAR. Soporta PyTorch y TensorFlow, pero tiene soporte limitado para español.
+
+PaddleOCR, de Baidu, fue nuestra selección. Utiliza la arquitectura PP-OCRv5 con DB para detección y SVTR para reconocimiento. Lo que lo diferencia es su alta configurabilidad — expone numerosos hiperparámetros de inferencia — y su soporte dedicado para español con modelos específicos.
+
+En la figura pueden ver el pipeline moderno de un sistema OCR: preprocesamiento, detección de texto, reconocimiento de caracteres y postprocesamiento. PaddleOCR nos permite intervenir en múltiples etapas de este pipeline a través de sus hiperparámetros."
+
+**Tips:**
+- Don't read all technical specs — focus on WHY PaddleOCR was chosen
+- "Alta configurabilidad" is the key differentiator — emphasize it
+- Point to the pipeline figure when explaining the OCR stages