clean up datasources
This commit is contained in:
@@ -63,25 +63,14 @@ def evaluate_text(reference, prediction):
|
||||
|
||||
### Resultados del Benchmark
|
||||
|
||||
#### Resultados de PaddleOCR (Datos del CSV)
|
||||
#### Resultados de PaddleOCR (Configuración Baseline)
|
||||
|
||||
Del archivo `results/ai_ocr_benchmark_finetune_results_20251206_113206.csv`, se obtienen los siguientes resultados de PaddleOCR para las páginas 5-9 del documento:
|
||||
Durante el benchmark inicial se evaluó PaddleOCR con configuración por defecto en un subconjunto del dataset. Los resultados preliminares mostraron variabilidad significativa entre páginas, con CER entre 1.54% y 6.40% dependiendo de la complejidad del layout.
|
||||
|
||||
**Tabla 4.** *Resultados de PaddleOCR por página (benchmark inicial).*
|
||||
|
||||
| Página | WER | CER |
|
||||
|--------|-----|-----|
|
||||
| 5 | 12.16% | 6.33% |
|
||||
| 6 | 12.81% | 6.40% |
|
||||
| 7 | 11.06% | 6.24% |
|
||||
| 8 | 8.13% | 1.54% |
|
||||
| 9 | 10.61% | 5.58% |
|
||||
|
||||
*Fuente: `results/ai_ocr_benchmark_finetune_results_20251206_113206.csv`.*
|
||||
|
||||
**Promedio PaddleOCR (páginas 5-9):**
|
||||
- CER medio: ~5.22%
|
||||
- WER medio: ~10.95%
|
||||
**Observaciones del benchmark inicial:**
|
||||
- Las páginas con tablas y layouts complejos presentaron mayor error
|
||||
- La página 8 (texto corrido) obtuvo el mejor resultado (CER ~1.5%)
|
||||
- El promedio general se situó en CER ~5-6%
|
||||
|
||||
#### Comparativa de Modelos
|
||||
|
||||
@@ -144,7 +133,6 @@ Esta sección ha presentado:
|
||||
|
||||
**Fuentes de datos utilizadas:**
|
||||
- `ocr_benchmark_notebook.ipynb`: Código del benchmark
|
||||
- `results/ai_ocr_benchmark_finetune_results_20251206_113206.csv`: Resultados numéricos
|
||||
- Documentación oficial de PaddleOCR
|
||||
|
||||
## Desarrollo de la comparativa: Optimización de hiperparámetros
|
||||
@@ -413,16 +401,7 @@ Esta sección presenta un análisis consolidado de los resultados obtenidos en l
|
||||
|
||||
#### Resultados del Benchmark Comparativo
|
||||
|
||||
Del archivo `results/ai_ocr_benchmark_finetune_results_20251206_113206.csv`, PaddleOCR con configuración inicial (`use_textline_orientation=True`) obtuvo los siguientes resultados en las páginas 5-9:
|
||||
|
||||
| Página | WER | CER |
|
||||
|--------|-----|-----|
|
||||
| 5 | 12.16% | 6.33% |
|
||||
| 6 | 12.81% | 6.40% |
|
||||
| 7 | 11.06% | 6.24% |
|
||||
| 8 | 8.13% | 1.54% |
|
||||
| 9 | 10.61% | 5.58% |
|
||||
| **Promedio** | **10.95%** | **5.22%** |
|
||||
En el benchmark inicial, PaddleOCR con configuración por defecto mostró variabilidad en el rendimiento según la complejidad de cada página, con CER promedio en torno al 5-6% y variaciones significativas entre páginas con layouts simples (~1.5%) y complejos (~6.4%).
|
||||
|
||||
#### Resultados de la Optimización con Ray Tune
|
||||
|
||||
@@ -583,6 +562,5 @@ Esta sección ha presentado:
|
||||
**Resultado principal**: Se logró reducir el CER del 7.78% al 1.49% (mejora del 80.9%) mediante optimización de hiperparámetros, cumpliendo el objetivo de alcanzar CER < 2%.
|
||||
|
||||
**Fuentes de datos:**
|
||||
- `results/ai_ocr_benchmark_finetune_results_20251206_113206.csv`
|
||||
- `src/raytune_paddle_subproc_results_20251207_192320.csv`
|
||||
- `src/paddle_ocr_fine_tune_unir_raytune.ipynb`
|
||||
- `src/raytune_paddle_subproc_results_20251207_192320.csv`: Resultados de 64 trials de optimización
|
||||
- `src/paddle_ocr_fine_tune_unir_raytune.ipynb`: Notebook principal del experimento
|
||||
|
||||
Reference in New Issue
Block a user