Paddle ocr, easyicr and doctr gpu support. (#4)
All checks were successful
build_docker / essential (push) Successful in 0s
build_docker / build_cpu (push) Successful in 5m0s
build_docker / build_gpu (push) Successful in 22m55s
build_docker / build_easyocr (push) Successful in 18m47s
build_docker / build_easyocr_gpu (push) Successful in 19m0s
build_docker / build_raytune (push) Successful in 3m27s
build_docker / build_doctr (push) Successful in 19m42s
build_docker / build_doctr_gpu (push) Successful in 14m49s

This commit was merged in pull request #4.
This commit is contained in:
2026-01-19 17:35:24 +00:00
committed by Sergio Jimenez Jimenez
parent 8e2b7a5096
commit c7ed7b2b9c
105 changed files with 8170 additions and 1263 deletions

View File

@@ -18,6 +18,8 @@ El procesamiento de documentos en español presenta particularidades que complic
La Tabla 1 resume los principales desafíos lingüísticos del OCR en español:
**Tabla 1.** *Desafíos lingüísticos específicos del OCR en español.*
| Desafío | Descripción | Impacto en OCR |
|---------|-------------|----------------|
| Caracteres especiales | ñ, á, é, í, ó, ú, ü, ¿, ¡ | Confusión con caracteres similares (n/ñ, a/á) |
@@ -25,7 +27,7 @@ La Tabla 1 resume los principales desafíos lingüísticos del OCR en español:
| Abreviaturas | Dr., Sra., Ud., etc. | Puntos internos confunden segmentación |
| Nombres propios | Tildes en apellidos (García, Martínez) | Bases de datos sin soporte Unicode |
*Tabla 1. Desafíos lingüísticos específicos del OCR en español. Fuente: Elaboración propia.*
*Fuente: Elaboración propia.*
Además de los aspectos lingüísticos, los documentos académicos y administrativos en español presentan características tipográficas que complican el reconocimiento: variaciones en fuentes entre encabezados, cuerpo y notas al pie; presencia de tablas con bordes y celdas; logotipos institucionales; marcas de agua; y elementos gráficos como firmas o sellos. Estos elementos generan ruido que puede propagarse en aplicaciones downstream como la extracción de entidades nombradas o el análisis semántico.
@@ -37,6 +39,8 @@ La adaptación de modelos preentrenados a dominios específicos típicamente req
La Tabla 2 ilustra los requisitos típicos para diferentes estrategias de mejora de OCR:
**Tabla 2.** *Comparación de estrategias de mejora de modelos OCR.*
| Estrategia | Datos requeridos | Hardware | Tiempo | Expertise |
|------------|------------------|----------|--------|-----------|
| Fine-tuning completo | >10,000 imágenes etiquetadas | GPU (≥16GB VRAM) | Días-Semanas | Alto |
@@ -44,7 +48,7 @@ La Tabla 2 ilustra los requisitos típicos para diferentes estrategias de mejora
| Transfer learning | >500 imágenes etiquetadas | GPU (≥8GB VRAM) | Horas | Medio |
| **Optimización de hiperparámetros** | **<100 imágenes de validación** | **CPU suficiente** | **Horas** | **Bajo-Medio** |
*Tabla 2. Comparación de estrategias de mejora de modelos OCR. Fuente: Elaboración propia.*
*Fuente: Elaboración propia.*
### La oportunidad: optimización sin fine-tuning
@@ -88,6 +92,8 @@ Una solución técnicamente superior pero impracticable tiene valor limitado. Es
Este trabajo se centra específicamente en:
**Tabla 3.** *Delimitación del alcance del trabajo.*
| Aspecto | Dentro del alcance | Fuera del alcance |
|---------|-------------------|-------------------|
| **Tipo de documento** | Documentos académicos digitales (PDF) | Documentos escaneados, manuscritos |
@@ -96,7 +102,7 @@ Este trabajo se centra específicamente en:
| **Método de mejora** | Optimización de hiperparámetros | Fine-tuning, aumento de datos |
| **Hardware** | Ejecución en CPU | Aceleración GPU |
*Tabla 3. Delimitación del alcance del trabajo. Fuente: Elaboración propia.*
*Fuente: Elaboración propia.*
### Relevancia y beneficiarios