19 lines
1.3 KiB
Markdown
19 lines
1.3 KiB
Markdown
|
|
# Slide 6 — State of the Art: OCR Engines (~1.5 minutes)
|
||
|
|
|
||
|
|
**What to say:**
|
||
|
|
|
||
|
|
"Antes de optimizar, necesitábamos seleccionar el motor OCR más adecuado. Evaluamos tres soluciones de código abierto.
|
||
|
|
|
||
|
|
EasyOCR, de JaidedAI, utiliza una arquitectura CRAFT más CRNN, soporta más de 80 idiomas, y es muy fácil de usar. Sin embargo, tiene baja configurabilidad de hiperparámetros, lo cual limita las posibilidades de optimización.
|
||
|
|
|
||
|
|
DocTR, de Mindee, ofrece buena velocidad de inferencia con una arquitectura DB más CRNN o SAR. Soporta PyTorch y TensorFlow, pero tiene soporte limitado para español.
|
||
|
|
|
||
|
|
PaddleOCR, de Baidu, fue nuestra selección. Utiliza la arquitectura PP-OCRv5 con DB para detección y SVTR para reconocimiento. Lo que lo diferencia es su alta configurabilidad — expone numerosos hiperparámetros de inferencia — y su soporte dedicado para español con modelos específicos.
|
||
|
|
|
||
|
|
En la figura pueden ver el pipeline moderno de un sistema OCR: preprocesamiento, detección de texto, reconocimiento de caracteres y postprocesamiento. PaddleOCR nos permite intervenir en múltiples etapas de este pipeline a través de sus hiperparámetros."
|
||
|
|
|
||
|
|
**Tips:**
|
||
|
|
- Don't read all technical specs — focus on WHY PaddleOCR was chosen
|
||
|
|
- "Alta configurabilidad" is the key differentiator — emphasize it
|
||
|
|
- Point to the pipeline figure when explaining the OCR stages
|