Chapter numbering fix
This commit is contained in:
@@ -1,8 +1,8 @@
|
||||
# Contexto y estado del arte
|
||||
# 2. Contexto y estado del arte
|
||||
|
||||
Este capítulo presenta el marco teórico y tecnológico en el que se desarrolla el presente trabajo. Se revisan los fundamentos del Reconocimiento Óptico de Caracteres (OCR), la evolución de las técnicas basadas en aprendizaje profundo, las principales soluciones de código abierto disponibles y los trabajos previos relacionados con la optimización de sistemas OCR.
|
||||
|
||||
## Contexto del problema
|
||||
## 2.1. Contexto del problema
|
||||
|
||||
### Definición y Evolución Histórica del OCR
|
||||
|
||||
@@ -17,6 +17,34 @@ El Reconocimiento Óptico de Caracteres (OCR) es el proceso de conversión de im
|
||||
|
||||
Los sistemas OCR modernos siguen típicamente un pipeline de dos etapas:
|
||||
|
||||
```mermaid
|
||||
flowchart LR
|
||||
subgraph Input
|
||||
A["Imagen de<br/>documento"]
|
||||
end
|
||||
|
||||
subgraph "Etapa 1: Detección"
|
||||
B["Text Detection<br/>(DB, EAST, CRAFT)"]
|
||||
end
|
||||
|
||||
subgraph "Etapa 2: Reconocimiento"
|
||||
C["Text Recognition<br/>(CRNN, SVTR, Transformer)"]
|
||||
end
|
||||
|
||||
subgraph Output
|
||||
D["Texto<br/>extraído"]
|
||||
end
|
||||
|
||||
A --> B
|
||||
B -->|"Regiones de texto<br/>(bounding boxes)"| C
|
||||
C --> D
|
||||
|
||||
style A fill:#e1f5fe
|
||||
style D fill:#c8e6c9
|
||||
```
|
||||
|
||||
*Figura 1. Pipeline típico de un sistema OCR moderno con etapas de detección y reconocimiento.*
|
||||
|
||||
1. **Detección de texto (Text Detection)**: Localización de regiones que contienen texto en la imagen. Las arquitecturas más utilizadas incluyen:
|
||||
- EAST (Efficient and Accurate Scene Text Detector)
|
||||
- CRAFT (Character Region Awareness for Text Detection)
|
||||
@@ -46,7 +74,7 @@ El español presenta características específicas que impactan el OCR:
|
||||
- **Longitud de palabras**: Palabras generalmente más largas que en inglés
|
||||
- **Puntuación**: Signos de interrogación y exclamación invertidos
|
||||
|
||||
## Estado del arte
|
||||
## 2.2. Estado del arte
|
||||
|
||||
### Soluciones OCR de Código Abierto
|
||||
|
||||
@@ -136,6 +164,40 @@ Los métodos de HPO incluyen:
|
||||
|
||||
La combinación Ray Tune + Optuna permite búsquedas eficientes en espacios de alta dimensionalidad.
|
||||
|
||||
```mermaid
|
||||
flowchart TD
|
||||
subgraph "Ray Tune"
|
||||
A["Espacio de<br/>búsqueda"]
|
||||
B["Scheduler<br/>(gestión de trials)"]
|
||||
C["Trial 1"]
|
||||
D["Trial 2"]
|
||||
E["Trial N"]
|
||||
end
|
||||
|
||||
subgraph "Optuna (TPE)"
|
||||
F["Modelo probabilístico<br/>de la función objetivo"]
|
||||
G["Sugiere nueva<br/>configuración"]
|
||||
end
|
||||
|
||||
subgraph "Evaluación"
|
||||
H["Ejecuta modelo OCR<br/>con config"]
|
||||
I["Calcula métricas<br/>(CER, WER)"]
|
||||
end
|
||||
|
||||
A --> B
|
||||
B --> C & D & E
|
||||
C & D & E --> H
|
||||
H --> I
|
||||
I -->|"Resultados"| F
|
||||
F --> G
|
||||
G -->|"Nueva config"| B
|
||||
|
||||
style A fill:#fff3e0
|
||||
style I fill:#e8f5e9
|
||||
```
|
||||
|
||||
*Figura 2. Arquitectura de optimización de hiperparámetros con Ray Tune y Optuna.*
|
||||
|
||||
#### HPO en Sistemas OCR
|
||||
|
||||
La aplicación de HPO a sistemas OCR ha sido explorada principalmente en el contexto de:
|
||||
@@ -164,7 +226,7 @@ Los trabajos previos en OCR para español se han centrado principalmente en:
|
||||
|
||||
La optimización de hiperparámetros para documentos académicos en español representa una contribución original de este trabajo.
|
||||
|
||||
## Conclusiones
|
||||
## 2.3. Conclusiones
|
||||
|
||||
Este capítulo ha presentado:
|
||||
|
||||
|
||||
Reference in New Issue
Block a user