thesis_output/presentation/slides/06_script.md

# Slide 6 — State of the Art: OCR Engines (~1.5 minutes)

**What to say:**

"Antes de optimizar, necesitábamos seleccionar el motor OCR más adecuado. Evaluamos tres soluciones de código abierto.

EasyOCR, de JaidedAI, utiliza una arquitectura CRAFT más CRNN, soporta más de 80 idiomas, y es muy fácil de usar. Sin embargo, tiene baja configurabilidad de hiperparámetros, lo cual limita las posibilidades de optimización.

DocTR, de Mindee, ofrece buena velocidad de inferencia con una arquitectura DB más CRNN o SAR. Soporta PyTorch y TensorFlow, pero tiene soporte limitado para español.

PaddleOCR, de Baidu, fue nuestra selección. Utiliza la arquitectura PP-OCRv5 con DB para detección y SVTR para reconocimiento. Lo que lo diferencia es su alta configurabilidad — expone numerosos hiperparámetros de inferencia — y su soporte dedicado para español con modelos específicos.

En la figura pueden ver el pipeline moderno de un sistema OCR: preprocesamiento, detección de texto, reconocimiento de caracteres y postprocesamiento. PaddleOCR nos permite intervenir en múltiples etapas de este pipeline a través de sus hiperparámetros."

**Tips:**
- Don't read all technical specs — focus on WHY PaddleOCR was chosen
- "Alta configurabilidad" is the key differentiator — emphasize it
- Point to the pipeline figure when explaining the OCR stages
pdf 2026-04-21 20:46:05 +02:00			`# Slide 6 — State of the Art: OCR Engines (~1.5 minutes)`

			`What to say:`

			`"Antes de optimizar, necesitábamos seleccionar el motor OCR más adecuado. Evaluamos tres soluciones de código abierto.`

			`EasyOCR, de JaidedAI, utiliza una arquitectura CRAFT más CRNN, soporta más de 80 idiomas, y es muy fácil de usar. Sin embargo, tiene baja configurabilidad de hiperparámetros, lo cual limita las posibilidades de optimización.`

			`DocTR, de Mindee, ofrece buena velocidad de inferencia con una arquitectura DB más CRNN o SAR. Soporta PyTorch y TensorFlow, pero tiene soporte limitado para español.`

			`PaddleOCR, de Baidu, fue nuestra selección. Utiliza la arquitectura PP-OCRv5 con DB para detección y SVTR para reconocimiento. Lo que lo diferencia es su alta configurabilidad — expone numerosos hiperparámetros de inferencia — y su soporte dedicado para español con modelos específicos.`

			`En la figura pueden ver el pipeline moderno de un sistema OCR: preprocesamiento, detección de texto, reconocimiento de caracteres y postprocesamiento. PaddleOCR nos permite intervenir en múltiples etapas de este pipeline a través de sus hiperparámetros."`

			`Tips:`
			`- Don't read all technical specs — focus on WHY PaddleOCR was chosen`
			`- "Alta configurabilidad" is the key differentiator — emphasize it`
			`- Point to the pipeline figure when explaining the OCR stages`