Documentation review. (#5)
All checks were successful
build_docker / essential (push) Successful in 0s
build_docker / build_paddle_ocr (push) Successful in 5m28s
build_docker / build_paddle_ocr_gpu (push) Successful in 21m16s
build_docker / build_easyocr (push) Successful in 15m52s
build_docker / build_easyocr_gpu (push) Successful in 18m22s
build_docker / build_doctr (push) Successful in 19m3s
build_docker / build_raytune (push) Successful in 3m34s
build_docker / build_doctr_gpu (push) Successful in 13m56s
All checks were successful
build_docker / essential (push) Successful in 0s
build_docker / build_paddle_ocr (push) Successful in 5m28s
build_docker / build_paddle_ocr_gpu (push) Successful in 21m16s
build_docker / build_easyocr (push) Successful in 15m52s
build_docker / build_easyocr_gpu (push) Successful in 18m22s
build_docker / build_doctr (push) Successful in 19m3s
build_docker / build_raytune (push) Successful in 3m34s
build_docker / build_doctr_gpu (push) Successful in 13m56s
This commit was merged in pull request #5.
This commit is contained in:
@@ -1,20 +1,20 @@
|
||||
# Objetivos concretos y metodología de trabajo
|
||||
|
||||
Este capítulo establece los objetivos del trabajo siguiendo la metodología SMART (Doran, 1981) y describe la metodología experimental empleada para alcanzarlos. Se define un objetivo general y cinco objetivos específicos, todos ellos medibles y verificables.
|
||||
La motivación presentada en el capítulo anterior se traduce ahora en objetivos concretos y medibles. Siguiendo la metodología SMART propuesta por Doran (1981), se define un objetivo general que guía el trabajo y cinco objetivos específicos que lo descomponen en metas alcanzables. La segunda parte del capítulo describe la metodología experimental diseñada para alcanzar estos objetivos.
|
||||
|
||||
## Objetivo general
|
||||
|
||||
> **Optimizar el rendimiento de PaddleOCR para documentos académicos en español mediante ajuste de hiperparámetros, alcanzando un CER inferior al 2% sin requerir fine-tuning del modelo ni recursos GPU dedicados.**
|
||||
> **Optimizar el rendimiento de PaddleOCR para documentos académicos en español mediante ajuste de hiperparámetros, alcanzando un CER inferior al 2% sin requerir fine-tuning del modelo.**
|
||||
|
||||
### Justificación SMART del Objetivo General
|
||||
|
||||
**Tabla 4.** *Justificación SMART del objetivo general.*
|
||||
**Tabla 13.** *Justificación SMART del objetivo general.*
|
||||
|
||||
| Criterio | Cumplimiento |
|
||||
|----------|--------------|
|
||||
| **Específico (S)** | Se define claramente qué se quiere lograr: optimizar PaddleOCR mediante ajuste de hiperparámetros para documentos en español |
|
||||
| **Medible (M)** | Se establece una métrica cuantificable: CER < 2% |
|
||||
| **Alcanzable (A)** | Es viable dado que: (1) PaddleOCR permite configuración de hiperparámetros, (2) Ray Tune posibilita búsqueda automatizada, (3) No se requiere GPU |
|
||||
| **Alcanzable (A)** | Es viable dado que: (1) PaddleOCR permite configuración de hiperparámetros, (2) Ray Tune posibilita búsqueda automatizada, (3) Aceleración GPU disponible para experimentación eficiente |
|
||||
| **Relevante (R)** | El impacto es demostrable: mejora la extracción de texto en documentos académicos sin costes adicionales de infraestructura |
|
||||
| **Temporal (T)** | El plazo es un cuatrimestre, correspondiente al TFM |
|
||||
|
||||
@@ -41,11 +41,18 @@ Este capítulo establece los objetivos del trabajo siguiendo la metodología SMA
|
||||
|
||||
### Visión General
|
||||
|
||||
|
||||
La metodología se estructura en cinco fases secuenciales, cada una de las cuales produce resultados que alimentan la siguiente. Desde la preparación del dataset hasta la validación final, el proceso sigue un diseño experimental que permite reproducir y verificar cada paso.
|
||||
|
||||
```mermaid
|
||||
---
|
||||
title: "Fases de la metodología experimental"
|
||||
config:
|
||||
theme: base
|
||||
themeVariables:
|
||||
primaryColor: "#E6F4F9"
|
||||
primaryTextColor: "#404040"
|
||||
primaryBorderColor: "#0098CD"
|
||||
lineColor: "#0098CD"
|
||||
---
|
||||
flowchart LR
|
||||
A["Fase 1<br/>Dataset"] --> B["Fase 2<br/>Benchmark"] --> C["Fase 3<br/>Espacio"] --> D["Fase 4<br/>Optimización"] --> E["Fase 5<br/>Validación"]
|
||||
@@ -83,6 +90,13 @@ El script `prepare_dataset.ipynb` implementa:
|
||||
```mermaid
|
||||
---
|
||||
title: "Estructura del dataset de evaluación"
|
||||
config:
|
||||
theme: base
|
||||
themeVariables:
|
||||
primaryColor: "#E6F4F9"
|
||||
primaryTextColor: "#404040"
|
||||
primaryBorderColor: "#0098CD"
|
||||
lineColor: "#0098CD"
|
||||
---
|
||||
flowchart LR
|
||||
dataset["dataset/"] --> d0["0/"]
|
||||
@@ -110,7 +124,7 @@ Se implementó una clase Python para cargar pares imagen-texto que retorna tupla
|
||||
|
||||
#### Modelos Evaluados
|
||||
|
||||
**Tabla 5.** *Modelos OCR evaluados en el benchmark inicial.*
|
||||
**Tabla 14.** *Modelos OCR evaluados en el benchmark inicial.*
|
||||
|
||||
| Modelo | Versión | Configuración |
|
||||
|--------|---------|---------------|
|
||||
@@ -128,7 +142,7 @@ Se utilizó la biblioteca `jiwer` para calcular CER y WER comparando el texto de
|
||||
|
||||
#### Hiperparámetros Seleccionados
|
||||
|
||||
**Tabla 6.** *Hiperparámetros seleccionados para optimización.*
|
||||
**Tabla 15.** *Hiperparámetros seleccionados para optimización.*
|
||||
|
||||
| Parámetro | Tipo | Rango/Valores | Descripción |
|
||||
|-----------|------|---------------|-------------|
|
||||
@@ -185,14 +199,14 @@ El servicio OCR expone una API REST que retorna métricas en formato JSON:
|
||||
|
||||
1. **Baseline**: Ejecución con configuración por defecto de PaddleOCR
|
||||
2. **Optimizado**: Ejecución con mejor configuración encontrada
|
||||
3. **Comparación**: Evaluación sobre las 24 páginas del dataset completo
|
||||
3. **Comparación**: Evaluación sobre las 45 páginas del dataset completo
|
||||
4. **Métricas reportadas**: CER, WER, tiempo de procesamiento
|
||||
|
||||
### Entorno de Ejecución
|
||||
|
||||
#### Hardware
|
||||
|
||||
**Tabla 7.** *Especificaciones de hardware del entorno de desarrollo.*
|
||||
**Tabla 16.** *Especificaciones de hardware del entorno de desarrollo.*
|
||||
|
||||
| Componente | Especificación |
|
||||
|------------|----------------|
|
||||
@@ -205,7 +219,7 @@ El servicio OCR expone una API REST que retorna métricas en formato JSON:
|
||||
|
||||
#### Software
|
||||
|
||||
**Tabla 8.** *Versiones de software utilizadas.*
|
||||
**Tabla 17.** *Versiones de software utilizadas.*
|
||||
|
||||
| Componente | Versión |
|
||||
|------------|---------|
|
||||
@@ -222,7 +236,7 @@ El servicio OCR expone una API REST que retorna métricas en formato JSON:
|
||||
|
||||
La decisión de ejecutar los experimentos en hardware local en lugar de utilizar servicios cloud se fundamenta en un análisis de costos y beneficios operativos.
|
||||
|
||||
**Tabla 9.** *Costos de GPU en plataformas cloud.*
|
||||
**Tabla 18.** *Costos de GPU en plataformas cloud.*
|
||||
|
||||
| Plataforma | GPU | Costo/Hora | Costo Mensual |
|
||||
|------------|-----|------------|---------------|
|
||||
@@ -234,7 +248,7 @@ La decisión de ejecutar los experimentos en hardware local en lugar de utilizar
|
||||
|
||||
Para las tareas específicas de este proyecto, los costos estimados en cloud serían:
|
||||
|
||||
**Tabla 10.** *Análisis de costos del proyecto en plataformas cloud.*
|
||||
**Tabla 19.** *Análisis de costos del proyecto en plataformas cloud.*
|
||||
|
||||
| Tarea | Tiempo GPU | Costo AWS | Costo Colab Pro |
|
||||
|-------|------------|-----------|-----------------|
|
||||
@@ -256,23 +270,19 @@ Para un proyecto de investigación con múltiples iteraciones de ajuste de hiper
|
||||
|
||||
### Limitaciones Metodológicas
|
||||
|
||||
1. **Tamaño del dataset**: El dataset contiene 24 páginas de un único tipo de documento. Resultados pueden no generalizar a otros formatos.
|
||||
1. **Tamaño del dataset**: El dataset contiene 45 páginas de documentos académicos UNIR. Resultados pueden no generalizar a otros formatos.
|
||||
|
||||
2. **Ejecución en CPU**: Los tiempos de procesamiento (~70s/página) serían significativamente menores con GPU.
|
||||
2. **Subconjunto de optimización**: El ajuste de hiperparámetros se realizó sobre 5 páginas (páginas 5-10), lo que contribuyó al sobreajuste observado en la validación del dataset completo.
|
||||
|
||||
3. **Ground truth imperfecto**: El texto de referencia extraído de PDF puede contener errores en documentos con layouts complejos.
|
||||
3. **Texto de referencia imperfecto**: El texto de referencia extraído de PDF puede contener errores en documentos con diseños complejos.
|
||||
|
||||
4. **Parámetro fijo**: `text_det_unclip_ratio` quedó fijado en 0.0 durante todo el experimento por decisión de diseño inicial.
|
||||
|
||||
## Resumen del capítulo
|
||||
## Síntesis del capítulo
|
||||
|
||||
Este capítulo ha establecido:
|
||||
Los objetivos y la metodología definidos en este capítulo establecen el marco para la experimentación. El objetivo general —alcanzar un CER inferior al 2% mediante optimización de hiperparámetros— se descompone en cinco objetivos específicos que abarcan desde la comparativa inicial de soluciones hasta la validación final de la configuración optimizada.
|
||||
|
||||
1. Un objetivo general SMART: alcanzar CER < 2% mediante optimización de hiperparámetros
|
||||
2. Cinco objetivos específicos medibles y alcanzables
|
||||
3. Una metodología experimental en cinco fases claramente definidas
|
||||
4. El espacio de búsqueda de hiperparámetros y la configuración de Ray Tune
|
||||
5. Las limitaciones reconocidas del enfoque
|
||||
La metodología experimental en cinco fases garantiza un proceso sistemático y reproducible: preparación de un dataset de 45 páginas, benchmark comparativo de tres motores OCR, definición del espacio de búsqueda, ejecución de 64 trials con Ray Tune y Optuna, y validación de la configuración resultante. Las limitaciones metodológicas —tamaño del dataset, subconjunto de optimización reducido, texto de referencia automático— se reconocen explícitamente para contextualizar la interpretación de resultados.
|
||||
|
||||
El siguiente capítulo presenta el desarrollo específico de la contribución, incluyendo el benchmark comparativo de soluciones OCR, la optimización de hiperparámetros y el análisis de resultados.
|
||||
El capítulo siguiente pone en práctica esta metodología, presentando el desarrollo experimental completo con sus resultados y análisis.
|
||||
|
||||
|
||||
Reference in New Issue
Block a user