Chapter numbering fix

This commit is contained in:
2025-12-15 23:28:21 +01:00
parent 41a85cf9fc
commit 5f81eaed04
7 changed files with 198 additions and 84 deletions

View File

@@ -1,8 +1,8 @@
# Contexto y estado del arte
# 2. Contexto y estado del arte
Este capítulo presenta el marco teórico y tecnológico en el que se desarrolla el presente trabajo. Se revisan los fundamentos del Reconocimiento Óptico de Caracteres (OCR), la evolución de las técnicas basadas en aprendizaje profundo, las principales soluciones de código abierto disponibles y los trabajos previos relacionados con la optimización de sistemas OCR.
## Contexto del problema
## 2.1. Contexto del problema
### Definición y Evolución Histórica del OCR
@@ -17,6 +17,34 @@ El Reconocimiento Óptico de Caracteres (OCR) es el proceso de conversión de im
Los sistemas OCR modernos siguen típicamente un pipeline de dos etapas:
```mermaid
flowchart LR
subgraph Input
A["Imagen de<br/>documento"]
end
subgraph "Etapa 1: Detección"
B["Text Detection<br/>(DB, EAST, CRAFT)"]
end
subgraph "Etapa 2: Reconocimiento"
C["Text Recognition<br/>(CRNN, SVTR, Transformer)"]
end
subgraph Output
D["Texto<br/>extraído"]
end
A --> B
B -->|"Regiones de texto<br/>(bounding boxes)"| C
C --> D
style A fill:#e1f5fe
style D fill:#c8e6c9
```
*Figura 1. Pipeline típico de un sistema OCR moderno con etapas de detección y reconocimiento.*
1. **Detección de texto (Text Detection)**: Localización de regiones que contienen texto en la imagen. Las arquitecturas más utilizadas incluyen:
- EAST (Efficient and Accurate Scene Text Detector)
- CRAFT (Character Region Awareness for Text Detection)
@@ -46,7 +74,7 @@ El español presenta características específicas que impactan el OCR:
- **Longitud de palabras**: Palabras generalmente más largas que en inglés
- **Puntuación**: Signos de interrogación y exclamación invertidos
## Estado del arte
## 2.2. Estado del arte
### Soluciones OCR de Código Abierto
@@ -136,6 +164,40 @@ Los métodos de HPO incluyen:
La combinación Ray Tune + Optuna permite búsquedas eficientes en espacios de alta dimensionalidad.
```mermaid
flowchart TD
subgraph "Ray Tune"
A["Espacio de<br/>búsqueda"]
B["Scheduler<br/>(gestión de trials)"]
C["Trial 1"]
D["Trial 2"]
E["Trial N"]
end
subgraph "Optuna (TPE)"
F["Modelo probabilístico<br/>de la función objetivo"]
G["Sugiere nueva<br/>configuración"]
end
subgraph "Evaluación"
H["Ejecuta modelo OCR<br/>con config"]
I["Calcula métricas<br/>(CER, WER)"]
end
A --> B
B --> C & D & E
C & D & E --> H
H --> I
I -->|"Resultados"| F
F --> G
G -->|"Nueva config"| B
style A fill:#fff3e0
style I fill:#e8f5e9
```
*Figura 2. Arquitectura de optimización de hiperparámetros con Ray Tune y Optuna.*
#### HPO en Sistemas OCR
La aplicación de HPO a sistemas OCR ha sido explorada principalmente en el contexto de:
@@ -164,7 +226,7 @@ Los trabajos previos en OCR para español se han centrado principalmente en:
La optimización de hiperparámetros para documentos académicos en español representa una contribución original de este trabajo.
## Conclusiones
## 2.3. Conclusiones
Este capítulo ha presentado: