clean up datasources
This commit is contained in:
87
README.md
87
README.md
@@ -156,33 +156,96 @@ python src/paddle_ocr_tuning.py \
|
||||
## Fuentes de Datos
|
||||
|
||||
- **Dataset**: Instrucciones para la elaboración del TFE (UNIR), 24 páginas
|
||||
- **Resultados benchmark**: `results/ai_ocr_benchmark_finetune_results_20251206_113206.csv`
|
||||
- **Resultados Ray Tune**: `src/raytune_paddle_subproc_results_20251207_192320.csv`
|
||||
- **Resultados Ray Tune (PRINCIPAL)**: `src/raytune_paddle_subproc_results_20251207_192320.csv` - 64 trials de optimización con todas las métricas y configuraciones
|
||||
|
||||
---
|
||||
|
||||
## Generación del Documento TFM
|
||||
|
||||
### Generar documento Word desde Markdown
|
||||
### Prerrequisitos
|
||||
|
||||
```bash
|
||||
# 1. Generar figuras desde diagramas Mermaid
|
||||
# Instalar dependencias de Python
|
||||
pip install beautifulsoup4
|
||||
|
||||
# Instalar mermaid-cli para generación de figuras
|
||||
npm install @mermaid-js/mermaid-cli
|
||||
```
|
||||
|
||||
### Flujo de Generación del Documento
|
||||
|
||||
El documento TFM se genera en **3 pasos** que deben ejecutarse en orden:
|
||||
|
||||
```
|
||||
┌─────────────────────────────────────────────────────────────────────┐
|
||||
│ PASO 1: generate_mermaid_figures.py │
|
||||
│ ────────────────────────────────────────────────────────────────── │
|
||||
│ • Lee diagramas Mermaid de docs/*.md │
|
||||
│ • Genera thesis_output/figures/figura_*.png │
|
||||
│ • Crea figures_manifest.json con títulos │
|
||||
└─────────────────────────────────────────────────────────────────────┘
|
||||
↓
|
||||
┌─────────────────────────────────────────────────────────────────────┐
|
||||
│ PASO 2: apply_content.py │
|
||||
│ ────────────────────────────────────────────────────────────────── │
|
||||
│ • Lee plantilla desde instructions/plantilla_individual.htm │
|
||||
│ • Inserta contenido de docs/*.md en cada capítulo │
|
||||
│ • Genera tablas con formato APA y figuras con referencias │
|
||||
│ • Guarda en thesis_output/plantilla_individual.htm │
|
||||
└─────────────────────────────────────────────────────────────────────┘
|
||||
↓
|
||||
┌─────────────────────────────────────────────────────────────────────┐
|
||||
│ PASO 3: Abrir en Microsoft Word │
|
||||
│ ────────────────────────────────────────────────────────────────── │
|
||||
│ • Abrir thesis_output/plantilla_individual.htm │
|
||||
│ • Ctrl+A → F9 para actualizar índices (contenidos/figuras/tablas) │
|
||||
│ • Guardar como TFM_Sergio_Jimenez.docx │
|
||||
└─────────────────────────────────────────────────────────────────────┘
|
||||
```
|
||||
|
||||
### Comandos de Generación
|
||||
|
||||
```bash
|
||||
# Desde el directorio raíz del proyecto:
|
||||
|
||||
# PASO 1: Generar figuras PNG desde diagramas Mermaid
|
||||
python3 generate_mermaid_figures.py
|
||||
# Output: thesis_output/figures/figura_1.png ... figura_8.png
|
||||
|
||||
# 2. Aplicar contenido de docs/ a la plantilla UNIR
|
||||
# PASO 2: Aplicar contenido de docs/ a la plantilla UNIR
|
||||
python3 apply_content.py
|
||||
# Output: thesis_output/plantilla_individual.htm
|
||||
|
||||
# 3. Abrir en Word y actualizar índices
|
||||
# PASO 3: Abrir en Word y finalizar documento
|
||||
# - Abrir thesis_output/plantilla_individual.htm en Microsoft Word
|
||||
# - Presionar Ctrl+A luego F9 para actualizar todos los índices
|
||||
# - Ctrl+A → F9 para actualizar todos los índices
|
||||
# - IMPORTANTE: Ajustar manualmente el tamaño de las imágenes para legibilidad
|
||||
# (seleccionar imagen → clic derecho → Tamaño y posición → ajustar al ancho de página)
|
||||
# - Guardar como .docx
|
||||
```
|
||||
|
||||
**Contenido generado automáticamente:**
|
||||
- 30 tablas con formato `Piedefoto-tabla` (Tabla X. *Título* + Fuente)
|
||||
- 7 figuras desde Mermaid con formato `Piedefoto-tabla` (Figura X. *Título* + Fuente)
|
||||
- 25 referencias en formato APA con sangría francesa
|
||||
- Resumen y Abstract con palabras clave reales
|
||||
### Notas Importantes para Edición en Word
|
||||
|
||||
1. **Ajuste de imágenes**: Las figuras Mermaid pueden requerir ajuste manual de tamaño para ser legibles. Seleccionar cada imagen y ajustar al ancho de texto (~16cm).
|
||||
|
||||
2. **Actualización de índices**: Después de cualquier cambio, usar Ctrl+A → F9 para regenerar índices.
|
||||
|
||||
3. **Formato de código**: Los bloques de código usan Consolas 9pt. Verificar que no se corten líneas largas.
|
||||
|
||||
### Archivos de Entrada y Salida
|
||||
|
||||
| Script | Entrada | Salida |
|
||||
|--------|---------|--------|
|
||||
| `generate_mermaid_figures.py` | `docs/*.md` (bloques ```mermaid```) | `thesis_output/figures/figura_*.png`, `figures_manifest.json` |
|
||||
| `apply_content.py` | `instructions/plantilla_individual.htm`, `docs/*.md`, `thesis_output/figures/*.png` | `thesis_output/plantilla_individual.htm` |
|
||||
|
||||
### Contenido Generado Automáticamente
|
||||
|
||||
- **30 tablas** con formato APA (Tabla X. *Título* + Fuente: ...)
|
||||
- **8 figuras** desde Mermaid (Figura X. *Título* + Fuente: Elaboración propia)
|
||||
- **25 referencias** en formato APA con sangría francesa
|
||||
- **Resumen/Abstract** con palabras clave
|
||||
- **Índices** actualizables (contenidos, figuras, tablas)
|
||||
- Eliminación automática de textos de instrucción de la plantilla
|
||||
|
||||
---
|
||||
|
||||
Reference in New Issue
Block a user