Documentation review and data consistency.
Some checks failed
build_docker / essential (push) Successful in 0s
build_docker / build_paddle_ocr (push) Successful in 4m57s
build_docker / build_raytune (push) Has been cancelled
build_docker / build_easyocr_gpu (push) Has been cancelled
build_docker / build_doctr (push) Has been cancelled
build_docker / build_doctr_gpu (push) Has been cancelled
build_docker / build_paddle_ocr_gpu (push) Has been cancelled
build_docker / build_easyocr (push) Has been cancelled

This commit is contained in:
2026-01-24 15:53:34 +01:00
parent 9ee2490097
commit 0089b34cb3
48 changed files with 1030 additions and 930 deletions

View File

@@ -68,7 +68,7 @@ Este documento presenta resultados de dos fases experimentales distintas realiza
*Fuente: Elaboración propia.*
La fase de optimización representa el **resultado principal del TFM** (CER 1.49%, precisión 98.51%). La fase de validación GPU confirma la viabilidad práctica del enfoque, demostrando una aceleración de 126x respecto a CPU.
La fase de optimización representa el **resultado principal del TFM** (CER 1.49%, precisión 98.51%). La fase de validación GPU confirma la viabilidad práctica del enfoque. La aceleración respecto a CPU se estima en 82x cuando se compara el tiempo medio por página de los trials de ajuste en CPU y GPU.
## Comparación de Servicios OCR
@@ -178,15 +178,14 @@ flowchart LR
> **Conclusión:** Se recomiendan los modelos Mobile - más rápidos, más precisos, caben en VRAM.
## Rendimiento CPU vs GPU (PaddleOCR)
Datos de `raytune_paddle_subproc_results_20251207_192320.csv` (CPU) vs RTX 3060 (GPU):
## Rendimiento CPU vs GPU (PaddleOCR)
Datos de tiempos de los trials de ajuste en CPU (`raytune_paddle_subproc_results_20251207_192320.csv`) frente a GPU (RTX 3060):
| Métrica | CPU | GPU (RTX 3060) | Aceleración |
|---------|-----|----------------|-------------|
| **Tiempo/Página** | 69.4s | 0.55s | **126x más rápido** |
| **Mejor CER** | 1.15% | 0.79% | GPU mejor |
| **45 páginas** | ~52 min | ~25 seg | **126x más rápido** |
| **Tiempo/Página** | 69.4s | 0.84s | **82x más rápido** |
| **45 páginas** | ~52 min | ~38 seg | **82x más rápido** |
```mermaid
---
@@ -203,11 +202,11 @@ config:
xychart-beta
title "Tiempo de Procesamiento por Página: CPU vs GPU"
x-axis ["CPU", "GPU (RTX 3060)"]
y-axis "Segundos" 0 --> 80
bar [69.4, 0.55]
```
> **Conclusión:** GPU es esencial para uso práctico de OCR. El procesamiento en CPU es 126x más lento, haciéndolo impráctico para procesamiento por lotes.
y-axis "Segundos" 0 --> 80
bar [69.4, 0.84]
```
> **Conclusión:** GPU es esencial para uso práctico de OCR. En los trials de ajuste, el procesamiento en CPU es 82x más lento.
## Datos Crudos del Benchmark

View File

@@ -35,7 +35,9 @@ La falta total de mejora en el dataset completo indica sobreajuste severo a las
| **CER** | 12.06% | **7.43%** | **38%** |
| **WER** | 42.01% | **35.23%** | **16%** |
> Nota: Las mejoras en el subconjunto de ajuste no se transfirieron al dataset completo.
> Nota: Las mejoras en el subconjunto de ajuste no se transfirieron al dataset completo.
*Fuente: https://seryus.ddns.net/unir/MastersThesis/src/branch/main/src/results/raytune_doctr_results_20260119_121445.csv*
## Mejor Configuración Encontrada

View File

@@ -35,7 +35,9 @@ La mejora mínima en el dataset completo indica que los hiperparámetros se sobr
| **CER** | 11.23% | **5.83%** | **48%** |
| **WER** | 36.36% | **26.33%** | **28%** |
> Nota: Las grandes mejoras en el subconjunto de ajuste no se transfirieron al dataset completo.
> Nota: Las grandes mejoras en el subconjunto de ajuste no se transfirieron al dataset completo.
*Fuente: https://seryus.ddns.net/unir/MastersThesis/src/branch/main/src/results/raytune_easyocr_results_20260119_120204.csv*
## Mejor Configuración Encontrada

View File

@@ -37,7 +37,9 @@ La diferencia dramática muestra que los hiperparámetros se sobreajustaron parc
| **CER** | 7.76% | **0.79%** | **90%** |
| **WER** | 11.62% | **7.78%** | **33%** |
> Nota: El subconjunto de ajuste mostró mayores mejoras, sugiriendo que algunos hiperparámetros son específicos de la página.
> Nota: El subconjunto de ajuste mostró mayores mejoras, sugiriendo que algunos hiperparámetros son específicos de la página.
*Fuente: https://seryus.ddns.net/unir/MastersThesis/src/branch/main/src/results/raytune_paddle_results_20260119_122609.csv*
## Mejor Configuración Encontrada