Cross references
Some checks failed
build_docker / essential (push) Successful in 1s
build_docker / build_paddle_ocr (push) Successful in 5m6s
build_docker / build_raytune (push) Has been cancelled
build_docker / build_easyocr_gpu (push) Has been cancelled
build_docker / build_doctr (push) Has been cancelled
build_docker / build_doctr_gpu (push) Has been cancelled
build_docker / build_paddle_ocr_gpu (push) Has started running
build_docker / build_easyocr (push) Has been cancelled
Some checks failed
build_docker / essential (push) Successful in 1s
build_docker / build_paddle_ocr (push) Successful in 5m6s
build_docker / build_raytune (push) Has been cancelled
build_docker / build_easyocr_gpu (push) Has been cancelled
build_docker / build_doctr (push) Has been cancelled
build_docker / build_doctr_gpu (push) Has been cancelled
build_docker / build_paddle_ocr_gpu (push) Has started running
build_docker / build_easyocr (push) Has been cancelled
This commit is contained in:
@@ -1,6 +1,6 @@
|
||||
# Contexto y estado del arte
|
||||
|
||||
Para comprender el alcance y las decisiones tomadas en este trabajo, es necesario situarlo en su contexto tecnológico. El Reconocimiento Óptico de Caracteres ha recorrido un largo camino desde los primeros sistemas de plantillas de los años 50 hasta las sofisticadas arquitecturas de aprendizaje profundo actuales. A lo largo de este capítulo se revisan los fundamentos técnicos del OCR moderno. Se analizan las principales soluciones de código abierto y se identifican los vacíos en la literatura que motivan la contribución de este trabajo.
|
||||
El Reconocimiento Óptico de Caracteres ha recorrido un largo camino desde los primeros sistemas de plantillas de los años 50 hasta las sofisticadas arquitecturas de aprendizaje profundo actuales. Motores clásicos como Tesseract marcaron un punto de inflexión en la adopción práctica de OCR en entornos reales (Smith, 2007).
|
||||
|
||||
## Contexto del problema
|
||||
|
||||
@@ -137,6 +137,8 @@ Una vez detectadas las regiones de texto, la etapa de reconocimiento transcribe
|
||||
|
||||
**CRNN (Convolutional Recurrent Neural Network)**: Propuesta por Shi et al. (2016), CRNN combina una CNN para extracción de características visuales con una RNN bidireccional (típicamente LSTM) para modelado de secuencias, entrenada con pérdida CTC. Esta arquitectura estableció el paradigma encoder-decoder que domina el campo.
|
||||
|
||||
En reconocimiento de texto en escenas, los modelos basados en secuencias convolucionales han mostrado mejoras relevantes en precisión y velocidad (He et al., 2016).
|
||||
|
||||
La arquitectura CRNN consta de tres componentes:
|
||||
1. **Capas convolucionales**: Extraen características visuales de la imagen de entrada
|
||||
2. **Capas recurrentes**: Modelan las dependencias secuenciales entre características
|
||||
@@ -201,6 +203,8 @@ El WER es generalmente mayor que el CER, ya que un solo error de carácter puede
|
||||
|
||||
**BLEU Score**: Adaptado de traducción automática, mide la similitud entre el texto predicho y la referencia considerando n-gramas.
|
||||
|
||||
**Métricas derivadas de WER**: Variantes como MER y WIL complementan la evaluación de reconocimiento de secuencias (Morris et al., 2004).
|
||||
|
||||
### Particularidades del OCR para el Idioma Español
|
||||
|
||||
El español, como lengua romance, presenta características específicas que impactan el rendimiento de los sistemas OCR:
|
||||
@@ -240,7 +244,7 @@ En los últimos años han surgido varias soluciones OCR de código abierto que d
|
||||
|
||||
#### EasyOCR
|
||||
|
||||
EasyOCR es una biblioteca de OCR desarrollada por Jaided AI (2020) con el objetivo de proporcionar una solución de fácil uso que soporte múltiples idiomas. Actualmente soporta más de 80 idiomas, incluyendo español.
|
||||
EasyOCR es una librería de OCR desarrollada por JaidedAI (2020) con el objetivo de proporcionar una solución de fácil uso que soporte múltiples idiomas. Actualmente soporta más de 80 idiomas, incluyendo español.
|
||||
|
||||
**Arquitectura técnica**:
|
||||
- **Detector**: CRAFT (Character Region Awareness for Text Detection)
|
||||
@@ -263,7 +267,7 @@ EasyOCR es una biblioteca de OCR desarrollada por Jaided AI (2020) con el objeti
|
||||
|
||||
#### PaddleOCR
|
||||
|
||||
PaddleOCR es el sistema OCR desarrollado por Baidu como parte del ecosistema PaddlePaddle (2024). Representa una de las soluciones más completas y activamente mantenidas en el ecosistema de código abierto. La versión PP-OCRv5, utilizada en este trabajo, incorpora los últimos avances en el campo.
|
||||
PaddleOCR es el sistema OCR desarrollado por Baidu como parte del ecosistema PaddlePaddle (2024). Representa una de las soluciones más completas y activamente mantenidas en el ecosistema de código abierto. Su evolución incluye PP-OCR (Du et al., 2020) y PP-OCRv4 (Du et al., 2023); la versión PP-OCRv5, utilizada en este trabajo, incorpora avances recientes en precisión y eficiencia.
|
||||
|
||||
**Arquitectura técnica**:
|
||||
|
||||
@@ -424,7 +428,7 @@ Desventajas:
|
||||
|
||||
Propuesto por Bergstra & Bengio (2012), Random Search muestrea configuraciones aleatoriamente del espacio de búsqueda. Sorprendentemente, supera a Grid Search en muchos escenarios prácticos.
|
||||
|
||||
La intuición es que, cuando solo algunos hiperparámetros son importantes, Random Search explora más valores de estos parámetros críticos mientras Grid Search desperdicia evaluaciones variando parámetros irrelevantes.
|
||||
La intuición es que, cuando solo algunos hiperparámetros son importantes, Random Search explora más valores de estos parámetros críticos mientras Grid Search desperdicia evaluaciones variando parámetros irrelevantes. En muchos escenarios, la búsqueda aleatoria ofrece un baseline competitivo (Bergstra & Bengio, 2012).
|
||||
|
||||
**Optimización Bayesiana**:
|
||||
|
||||
@@ -463,7 +467,7 @@ Configuraciones con alta probabilidad bajo $l$ y baja probabilidad bajo $g$ tien
|
||||
|
||||
#### Ray Tune
|
||||
|
||||
Ray Tune (Liaw et al., 2018) es un framework de optimización de hiperparámetros escalable construido sobre Ray, un sistema de computación distribuida. Sus características principales incluyen:
|
||||
Ray Tune (Liaw et al., 2018) es un framework de optimización de hiperparámetros escalable construido sobre Ray, un sistema de computación distribuida (Moritz et al., 2018). Sus características principales incluyen:
|
||||
|
||||
**Escalabilidad**:
|
||||
- Ejecución paralela de múltiples trials
|
||||
@@ -487,6 +491,8 @@ La combinación de Ray Tune con OptunaSearch permite:
|
||||
3. Beneficiarse de la infraestructura de Ray para distribución
|
||||
4. Acceder a las visualizaciones de Optuna
|
||||
|
||||
Optuna se ha consolidado como una opción práctica y eficiente para optimización de hiperparámetros en problemas reales (Akiba et al., 2019).
|
||||
|
||||
```mermaid
|
||||
---
|
||||
title: "Ciclo de optimización con Ray Tune y Optuna"
|
||||
@@ -523,6 +529,10 @@ Breuel (2013) exploró la selección automática de arquitecturas de red para re
|
||||
|
||||
Schulz & Kuhn (2017) optimizaron parámetros de modelos de lenguaje para corrección de errores OCR, incluyendo pesos de interpolación entre modelos de caracteres y palabras.
|
||||
|
||||
Además, la variabilidad del rendimiento puede analizarse mediante correlaciones lineales (Pearson, 1895), complementadas por criterios de magnitud del efecto (Cohen, 1988).
|
||||
|
||||
Finalmente, líneas de AutoML como la búsqueda de arquitecturas (NAS) representan alternativas más costosas pero potencialmente automatizables para optimizar modelos (Zoph & Le, 2017).
|
||||
|
||||
**Vacío en la literatura**:
|
||||
|
||||
A pesar de estos trabajos, existe un vacío significativo respecto a la optimización sistemática de hiperparámetros de inferencia en pipelines OCR modernos como PaddleOCR. La mayoría de trabajos se centran en:
|
||||
@@ -588,7 +598,9 @@ Los trabajos previos en OCR para español se han centrado principalmente en:
|
||||
|
||||
La optimización de hiperparámetros para documentos académicos en español representa una contribución original de este trabajo, abordando un nicho no explorado en la literatura.
|
||||
|
||||
En síntesis, la revisión del estado del arte revela un panorama en el que las herramientas técnicas están maduras, pero su aplicación óptima para dominios específicos permanece poco explorada. Los sistemas OCR modernos, como PaddleOCR, EasyOCR y DocTR, ofrecen arquitecturas sofisticadas basadas en aprendizaje profundo que alcanzan resultados impresionantes en benchmarks estándar. Sin embargo, estos resultados no siempre se trasladan a documentos del mundo real, especialmente en idiomas con menos recursos como el español.
|
||||
## Conclusiones
|
||||
|
||||
La revisión del estado del arte revela un panorama en el que las herramientas técnicas están maduras, pero su aplicación óptima para dominios específicos permanece poco explorada. Los sistemas OCR modernos, como PaddleOCR, EasyOCR y DocTR, ofrecen arquitecturas sofisticadas basadas en aprendizaje profundo que alcanzan resultados impresionantes en benchmarks estándar. Sin embargo, estos resultados no siempre se trasladan a documentos del mundo real, especialmente en idiomas con menos recursos como el español.
|
||||
|
||||
La evolución desde los sistemas de plantillas de los años 50 hasta los Transformers actuales ha sido espectacular, pero ha generado sistemas con decenas de hiperparámetros configurables cuyos valores por defecto representan compromisos generales, no configuraciones óptimas para dominios específicos. La literatura abunda en trabajos sobre entrenamiento y fine-tuning de modelos OCR, pero dedica poca atención a la optimización sistemática de los parámetros de inferencia, como umbrales de detección, opciones de preprocesamiento y filtros de confianza, que pueden marcar la diferencia entre un sistema usable y uno que requiere corrección manual extensiva.
|
||||
|
||||
|
||||
Reference in New Issue
Block a user