char colors
Some checks failed
build_docker / essential (pull_request) Successful in 0s
build_docker / build_easyocr (pull_request) Has been cancelled
build_docker / build_doctr_gpu (pull_request) Has been cancelled
build_docker / build_raytune (pull_request) Has been cancelled
build_docker / build_easyocr_gpu (pull_request) Has been cancelled
build_docker / build_doctr (pull_request) Has been cancelled
build_docker / build_cpu (pull_request) Has been cancelled
build_docker / build_gpu (pull_request) Has been cancelled

This commit is contained in:
2026-01-20 15:18:56 +01:00
parent 4088a1efd0
commit 4195c67b0c
20 changed files with 465 additions and 95 deletions

View File

@@ -121,7 +121,7 @@ Las arquitecturas más utilizadas para detección de texto incluyen:
**DB (Differentiable Binarization)**: Propuesto por Liao et al. (2020), DB introduce una operación de binarización diferenciable que permite entrenar end-to-end un detector de texto basado en segmentación. Esta arquitectura es la utilizada por PaddleOCR y destaca por su velocidad y precisión.
**Tabla 1.** *Comparativa de arquitecturas de detección de texto.*
**Tabla 4.** *Comparativa de arquitecturas de detección de texto.*
| Arquitectura | Tipo | Salida | Fortalezas | Limitaciones |
|--------------|------|--------|------------|--------------|
@@ -148,7 +148,7 @@ La arquitectura CRNN consta de tres componentes:
**TrOCR (Transformer-based OCR)**: Propuesto por Li et al. (2023), TrOCR utiliza un Vision Transformer (ViT) como encoder y un Transformer de lenguaje como decoder, logrando resultados estado del arte en múltiples benchmarks.
**Tabla 2.** *Comparativa de arquitecturas de reconocimiento de texto.*
**Tabla 5.** *Comparativa de arquitecturas de reconocimiento de texto.*
| Arquitectura | Encoder | Decoder | Pérdida | Características |
|--------------|---------|---------|---------|-----------------|
@@ -293,7 +293,7 @@ El pipeline de PaddleOCR consta de tres módulos principales:
PaddleOCR expone numerosos hiperparámetros que permiten ajustar el comportamiento del sistema. Los más relevantes para este trabajo son:
**Tabla 3.** *Hiperparámetros de detección de PaddleOCR.*
**Tabla 6.** *Hiperparámetros de detección de PaddleOCR.*
| Parámetro | Descripción | Rango | Defecto |
|-----------|-------------|-------|---------|
@@ -304,7 +304,7 @@ PaddleOCR expone numerosos hiperparámetros que permiten ajustar el comportamien
*Fuente: Documentación oficial de PaddleOCR (PaddlePaddle, 2024).*
**Tabla 4.** *Hiperparámetros de reconocimiento de PaddleOCR.*
**Tabla 7.** *Hiperparámetros de reconocimiento de PaddleOCR.*
| Parámetro | Descripción | Rango | Defecto |
|-----------|-------------|-------|---------|
@@ -314,7 +314,7 @@ PaddleOCR expone numerosos hiperparámetros que permiten ajustar el comportamien
*Fuente: Documentación oficial de PaddleOCR (PaddlePaddle, 2024).*
**Tabla 5.** *Hiperparámetros de preprocesamiento de PaddleOCR.*
**Tabla 8.** *Hiperparámetros de preprocesamiento de PaddleOCR.*
| Parámetro | Descripción | Impacto |
|-----------|-------------|---------|
@@ -359,7 +359,7 @@ DocTR (Document Text Recognition) es una biblioteca desarrollada por Mindee (202
#### Comparativa Detallada de Soluciones
**Tabla 6.** *Comparativa técnica de soluciones OCR de código abierto.*
**Tabla 9.** *Comparativa técnica de soluciones OCR de código abierto.*
| Aspecto | EasyOCR | PaddleOCR | DocTR |
|---------|---------|-----------|-------|
@@ -374,7 +374,7 @@ DocTR (Document Text Recognition) es una biblioteca desarrollada por Mindee (202
*Fuente: Elaboración propia a partir de documentación oficial (2024).*
**Tabla 7.** *Comparativa de facilidad de uso.*
**Tabla 10.** *Comparativa de facilidad de uso.*
| Aspecto | EasyOCR | PaddleOCR | DocTR |
|---------|---------|-----------|-------|
@@ -399,7 +399,7 @@ A diferencia de los parámetros del modelo (como los pesos de una red neuronal),
El problema de HPO puede formalizarse como:
$$\lambda^* = \arg\min_{\lambda \in \Lambda} \mathcal{L}(M_\lambda, D_{val})$$
$$\lambda^* = \operatorname{argmin}_{\lambda \in \Lambda} \mathcal{L}(M_\lambda, D_{val})$$
Donde:
- $\lambda$ es un vector de hiperparámetros
@@ -548,7 +548,7 @@ Los principales recursos para evaluación de OCR en español incluyen:
**XFUND**: Dataset de comprensión de formularios en múltiples idiomas, incluyendo español, con anotaciones de entidades y relaciones.
**Tabla 8.** *Datasets públicos con contenido en español.*
**Tabla 11.** *Datasets públicos con contenido en español.*
| Dataset | Tipo | Idiomas | Tamaño | Uso principal |
|---------|------|---------|--------|---------------|
@@ -578,7 +578,7 @@ Los trabajos previos en OCR para español se han centrado principalmente en:
**Reconocimiento de texto en escenas**: Participaciones en competiciones ICDAR para detección y reconocimiento de texto en español en imágenes naturales.
**Tabla 9.** *Trabajos previos relevantes en OCR para español.*
**Tabla 12.** *Trabajos previos relevantes en OCR para español.*
| Trabajo | Enfoque | Contribución |
|---------|---------|--------------|