assit commands for claude

2026-01-20 11:35:56 +01:00
parent c7ed7b2b9c
commit 6b98aeacac
26 changed files with 1135 additions and 609 deletions
--- a/docs/03_objetivos_metodologia.md
+++ b/docs/03_objetivos_metodologia.md
@@ -4,7 +4,7 @@ Este capítulo establece los objetivos del trabajo siguiendo la metodología SMA

 ## Objetivo general

-> **Optimizar el rendimiento de PaddleOCR para documentos académicos en español mediante ajuste de hiperparámetros, alcanzando un CER inferior al 2% sin requerir fine-tuning del modelo ni recursos GPU dedicados.**
+> **Optimizar el rendimiento de PaddleOCR para documentos académicos en español mediante ajuste de hiperparámetros, alcanzando un CER inferior al 2% sin requerir fine-tuning del modelo.**

 ### Justificación SMART del Objetivo General

@@ -14,7 +14,7 @@ Este capítulo establece los objetivos del trabajo siguiendo la metodología SMA
 |----------|--------------|
 | **Específico (S)** | Se define claramente qué se quiere lograr: optimizar PaddleOCR mediante ajuste de hiperparámetros para documentos en español |
 | **Medible (M)** | Se establece una métrica cuantificable: CER < 2% |
-| **Alcanzable (A)** | Es viable dado que: (1) PaddleOCR permite configuración de hiperparámetros, (2) Ray Tune posibilita búsqueda automatizada, (3) No se requiere GPU |
+| **Alcanzable (A)** | Es viable dado que: (1) PaddleOCR permite configuración de hiperparámetros, (2) Ray Tune posibilita búsqueda automatizada, (3) Aceleración GPU disponible para experimentación eficiente |
 | **Relevante (R)** | El impacto es demostrable: mejora la extracción de texto en documentos académicos sin costes adicionales de infraestructura |
 | **Temporal (T)** | El plazo es un cuatrimestre, correspondiente al TFM |

@@ -45,7 +45,14 @@ Este capítulo establece los objetivos del trabajo siguiendo la metodología SMA

 ```mermaid
 ---
-title: "Fases de la metodología experimental"
+title: Fases de la metodología experimental
+config:
+  theme: base
+  themeVariables:
+    primaryColor: "#E6F4F9"
+    primaryTextColor: "#404040"
+    primaryBorderColor: "#0098CD"
+    lineColor: "#0098CD"
 ---
 flowchart LR
    A["Fase 1<br/>Dataset"] --> B["Fase 2<br/>Benchmark"] --> C["Fase 3<br/>Espacio"] --> D["Fase 4<br/>Optimización"] --> E["Fase 5<br/>Validación"]
@@ -82,7 +89,14 @@ El script `prepare_dataset.ipynb` implementa:

 ```mermaid
 ---
-title: "Estructura del dataset de evaluación"
+title: Estructura del dataset de evaluación
+config:
+  theme: base
+  themeVariables:
+    primaryColor: "#E6F4F9"
+    primaryTextColor: "#404040"
+    primaryBorderColor: "#0098CD"
+    lineColor: "#0098CD"
 ---
 flowchart LR
    dataset["dataset/"] --> d0["0/"]
@@ -185,7 +199,7 @@ El servicio OCR expone una API REST que retorna métricas en formato JSON:

 1. **Baseline**: Ejecución con configuración por defecto de PaddleOCR
 2. **Optimizado**: Ejecución con mejor configuración encontrada
-3. **Comparación**: Evaluación sobre las 24 páginas del dataset completo
+3. **Comparación**: Evaluación sobre las 45 páginas del dataset completo
 4. **Métricas reportadas**: CER, WER, tiempo de procesamiento

 ### Entorno de Ejecución
@@ -256,11 +270,11 @@ Para un proyecto de investigación con múltiples iteraciones de ajuste de hiper

 ### Limitaciones Metodológicas

-1. **Tamaño del dataset**: El dataset contiene 24 páginas de un único tipo de documento. Resultados pueden no generalizar a otros formatos.
+1. **Tamaño del dataset**: El dataset contiene 45 páginas de documentos académicos UNIR. Resultados pueden no generalizar a otros formatos.

-2. **Ejecución en CPU**: Los tiempos de procesamiento (~70s/página) serían significativamente menores con GPU.
+2. **Subconjunto de optimización**: El ajuste de hiperparámetros se realizó sobre 5 páginas (páginas 5-10), lo que contribuyó al sobreajuste observado en la validación del dataset completo.

-3. **Ground truth imperfecto**: El texto de referencia extraído de PDF puede contener errores en documentos con layouts complejos.
+3. **Texto de referencia imperfecto**: El texto de referencia extraído de PDF puede contener errores en documentos con diseños complejos.

 4. **Parámetro fijo**: `text_det_unclip_ratio` quedó fijado en 0.0 durante todo el experimento por decisión de diseño inicial.

@@ -268,7 +282,7 @@ Para un proyecto de investigación con múltiples iteraciones de ajuste de hiper

 Este capítulo ha establecido:

-1. Un objetivo general SMART: alcanzar CER < 2% mediante optimización de hiperparámetros
+1. Un objetivo general SMART: alcanzar CER < 2% mediante optimización de hiperparámetros (logrado en el mejor trial: 0.79%)
 2. Cinco objetivos específicos medibles y alcanzables
 3. Una metodología experimental en cinco fases claramente definidas
 4. El espacio de búsqueda de hiperparámetros y la configuración de Ray Tune