raytune as docker
Some checks failed
build_docker / essential (pull_request) Successful in 1s
build_docker / build_cpu (pull_request) Successful in 4m14s
build_docker / build_easyocr (pull_request) Successful in 12m19s
build_docker / build_easyocr_gpu (pull_request) Successful in 14m2s
build_docker / build_doctr (pull_request) Successful in 12m24s
build_docker / build_doctr_gpu (pull_request) Successful in 13m10s
build_docker / build_raytune (pull_request) Successful in 1m50s
build_docker / build_gpu (pull_request) Has been cancelled

This commit is contained in:
2026-01-19 16:32:45 +01:00
parent d67cbd4677
commit 94b25f9752
20 changed files with 7214 additions and 112 deletions

View File

@@ -18,11 +18,15 @@ Optimizar el rendimiento de PaddleOCR para documentos académicos en español me
## Resultados Principales
**Tabla.** *Comparación de métricas OCR entre configuración baseline y optimizada.*
| Modelo | CER | Precisión Caracteres | WER | Precisión Palabras |
|--------|-----|---------------------|-----|-------------------|
| PaddleOCR (Baseline) | 7.78% | 92.22% | 14.94% | 85.06% |
| **PaddleOCR-HyperAdjust** | **1.49%** | **98.51%** | **7.62%** | **92.38%** |
*Fuente: Elaboración propia.*
**Mejora obtenida:** Reducción del CER en un **80.9%**
### Configuración Óptima Encontrada
@@ -56,6 +60,8 @@ PDF (académico UNIR)
### Experimento de Optimización
**Tabla.** *Parámetros de configuración del experimento Ray Tune.*
| Parámetro | Valor |
|-----------|-------|
| Número de trials | 64 |
@@ -64,6 +70,8 @@ PDF (académico UNIR)
| Trials concurrentes | 2 |
| Tiempo total | ~6 horas (CPU) |
*Fuente: Elaboración propia.*
---
## Estructura del Repositorio
@@ -143,16 +151,20 @@ Se realizó una validación adicional con aceleración GPU para evaluar la viabi
## Requisitos
**Tabla.** *Dependencias principales del proyecto y versiones utilizadas.*
| Componente | Versión |
|------------|---------|
| Python | 3.11.9 |
| Python | 3.12.3 |
| PaddlePaddle | 3.2.2 |
| PaddleOCR | 3.3.2 |
| Ray | 2.52.1 |
| Optuna | 4.6.0 |
| Optuna | 4.7.0 |
| jiwer | (para métricas CER/WER) |
| PyMuPDF | (para conversión PDF) |
*Fuente: Elaboración propia.*
---
## Uso
@@ -262,11 +274,15 @@ python3 apply_content.py
### Archivos de Entrada y Salida
**Tabla.** *Relación de scripts de generación con sus archivos de entrada y salida.*
| Script | Entrada | Salida |
|--------|---------|--------|
| `generate_mermaid_figures.py` | `docs/*.md` (bloques ```mermaid```) | `thesis_output/figures/figura_*.png`, `figures_manifest.json` |
| `apply_content.py` | `instructions/plantilla_individual.htm`, `docs/*.md`, `thesis_output/figures/*.png` | `thesis_output/plantilla_individual.htm` |
*Fuente: Elaboración propia.*
### Contenido Generado Automáticamente
- **30 tablas** con formato APA (Tabla X. *Título* + Fuente: ...)