assit commands for claude
All checks were successful
build_docker / essential (pull_request) Successful in 1s
build_docker / build_cpu (pull_request) Successful in 5m0s
build_docker / build_gpu (pull_request) Successful in 22m37s
build_docker / build_easyocr (pull_request) Successful in 18m5s
build_docker / build_easyocr_gpu (pull_request) Successful in 15m43s
build_docker / build_doctr (pull_request) Successful in 17m17s
build_docker / build_raytune (pull_request) Successful in 3m24s
build_docker / build_doctr_gpu (pull_request) Successful in 16m54s
All checks were successful
build_docker / essential (pull_request) Successful in 1s
build_docker / build_cpu (pull_request) Successful in 5m0s
build_docker / build_gpu (pull_request) Successful in 22m37s
build_docker / build_easyocr (pull_request) Successful in 18m5s
build_docker / build_easyocr_gpu (pull_request) Successful in 15m43s
build_docker / build_doctr (pull_request) Successful in 17m17s
build_docker / build_raytune (pull_request) Successful in 3m24s
build_docker / build_doctr_gpu (pull_request) Successful in 16m54s
This commit is contained in:
@@ -4,7 +4,7 @@ Este capítulo establece los objetivos del trabajo siguiendo la metodología SMA
|
||||
|
||||
## Objetivo general
|
||||
|
||||
> **Optimizar el rendimiento de PaddleOCR para documentos académicos en español mediante ajuste de hiperparámetros, alcanzando un CER inferior al 2% sin requerir fine-tuning del modelo ni recursos GPU dedicados.**
|
||||
> **Optimizar el rendimiento de PaddleOCR para documentos académicos en español mediante ajuste de hiperparámetros, alcanzando un CER inferior al 2% sin requerir fine-tuning del modelo.**
|
||||
|
||||
### Justificación SMART del Objetivo General
|
||||
|
||||
@@ -14,7 +14,7 @@ Este capítulo establece los objetivos del trabajo siguiendo la metodología SMA
|
||||
|----------|--------------|
|
||||
| **Específico (S)** | Se define claramente qué se quiere lograr: optimizar PaddleOCR mediante ajuste de hiperparámetros para documentos en español |
|
||||
| **Medible (M)** | Se establece una métrica cuantificable: CER < 2% |
|
||||
| **Alcanzable (A)** | Es viable dado que: (1) PaddleOCR permite configuración de hiperparámetros, (2) Ray Tune posibilita búsqueda automatizada, (3) No se requiere GPU |
|
||||
| **Alcanzable (A)** | Es viable dado que: (1) PaddleOCR permite configuración de hiperparámetros, (2) Ray Tune posibilita búsqueda automatizada, (3) Aceleración GPU disponible para experimentación eficiente |
|
||||
| **Relevante (R)** | El impacto es demostrable: mejora la extracción de texto en documentos académicos sin costes adicionales de infraestructura |
|
||||
| **Temporal (T)** | El plazo es un cuatrimestre, correspondiente al TFM |
|
||||
|
||||
@@ -45,7 +45,14 @@ Este capítulo establece los objetivos del trabajo siguiendo la metodología SMA
|
||||
|
||||
```mermaid
|
||||
---
|
||||
title: "Fases de la metodología experimental"
|
||||
title: Fases de la metodología experimental
|
||||
config:
|
||||
theme: base
|
||||
themeVariables:
|
||||
primaryColor: "#E6F4F9"
|
||||
primaryTextColor: "#404040"
|
||||
primaryBorderColor: "#0098CD"
|
||||
lineColor: "#0098CD"
|
||||
---
|
||||
flowchart LR
|
||||
A["Fase 1<br/>Dataset"] --> B["Fase 2<br/>Benchmark"] --> C["Fase 3<br/>Espacio"] --> D["Fase 4<br/>Optimización"] --> E["Fase 5<br/>Validación"]
|
||||
@@ -82,7 +89,14 @@ El script `prepare_dataset.ipynb` implementa:
|
||||
|
||||
```mermaid
|
||||
---
|
||||
title: "Estructura del dataset de evaluación"
|
||||
title: Estructura del dataset de evaluación
|
||||
config:
|
||||
theme: base
|
||||
themeVariables:
|
||||
primaryColor: "#E6F4F9"
|
||||
primaryTextColor: "#404040"
|
||||
primaryBorderColor: "#0098CD"
|
||||
lineColor: "#0098CD"
|
||||
---
|
||||
flowchart LR
|
||||
dataset["dataset/"] --> d0["0/"]
|
||||
@@ -185,7 +199,7 @@ El servicio OCR expone una API REST que retorna métricas en formato JSON:
|
||||
|
||||
1. **Baseline**: Ejecución con configuración por defecto de PaddleOCR
|
||||
2. **Optimizado**: Ejecución con mejor configuración encontrada
|
||||
3. **Comparación**: Evaluación sobre las 24 páginas del dataset completo
|
||||
3. **Comparación**: Evaluación sobre las 45 páginas del dataset completo
|
||||
4. **Métricas reportadas**: CER, WER, tiempo de procesamiento
|
||||
|
||||
### Entorno de Ejecución
|
||||
@@ -256,11 +270,11 @@ Para un proyecto de investigación con múltiples iteraciones de ajuste de hiper
|
||||
|
||||
### Limitaciones Metodológicas
|
||||
|
||||
1. **Tamaño del dataset**: El dataset contiene 24 páginas de un único tipo de documento. Resultados pueden no generalizar a otros formatos.
|
||||
1. **Tamaño del dataset**: El dataset contiene 45 páginas de documentos académicos UNIR. Resultados pueden no generalizar a otros formatos.
|
||||
|
||||
2. **Ejecución en CPU**: Los tiempos de procesamiento (~70s/página) serían significativamente menores con GPU.
|
||||
2. **Subconjunto de optimización**: El ajuste de hiperparámetros se realizó sobre 5 páginas (páginas 5-10), lo que contribuyó al sobreajuste observado en la validación del dataset completo.
|
||||
|
||||
3. **Ground truth imperfecto**: El texto de referencia extraído de PDF puede contener errores en documentos con layouts complejos.
|
||||
3. **Texto de referencia imperfecto**: El texto de referencia extraído de PDF puede contener errores en documentos con diseños complejos.
|
||||
|
||||
4. **Parámetro fijo**: `text_det_unclip_ratio` quedó fijado en 0.0 durante todo el experimento por decisión de diseño inicial.
|
||||
|
||||
@@ -268,7 +282,7 @@ Para un proyecto de investigación con múltiples iteraciones de ajuste de hiper
|
||||
|
||||
Este capítulo ha establecido:
|
||||
|
||||
1. Un objetivo general SMART: alcanzar CER < 2% mediante optimización de hiperparámetros
|
||||
1. Un objetivo general SMART: alcanzar CER < 2% mediante optimización de hiperparámetros (logrado en el mejor trial: 0.79%)
|
||||
2. Cinco objetivos específicos medibles y alcanzables
|
||||
3. Una metodología experimental en cinco fases claramente definidas
|
||||
4. El espacio de búsqueda de hiperparámetros y la configuración de Ray Tune
|
||||
|
||||
Reference in New Issue
Block a user