Files
MastersThesis/docs/07_anexo_a.md
2025-12-16 00:31:27 +01:00

1.9 KiB

Anexo A. Código fuente y datos analizados

A.1 Repositorio del Proyecto

El código fuente completo y los datos utilizados en este trabajo están disponibles en el siguiente repositorio:

URL del repositorio: https://github.com/seryus/MastersThesis

El repositorio incluye:

  • Notebooks de experimentación: Código completo de los experimentos realizados
  • Scripts de evaluación: Herramientas para evaluar modelos OCR
  • Dataset: Imágenes y textos de referencia utilizados
  • Resultados: Archivos CSV con los resultados de los 64 trials de Ray Tune

A.2 Estructura del Repositorio

---
title: "Estructura del repositorio del proyecto"
---
flowchart LR
    root["MastersThesis/"] --> docs["docs/"]
    root --> src["src/"]
    root --> results["results/"]
    root --> instructions["instructions/"]
    root --> readme["README.md"]

    src --> nb1["paddle_ocr_fine_tune_unir_raytune.ipynb"]
    src --> py1["paddle_ocr_tuning.py"]
    src --> py2["dataset_manager.py"]
    src --> nb2["prepare_dataset.ipynb"]
    src --> csv["raytune_results_*.csv"]

Descripción de componentes:

  • docs/: Capítulos de la tesis en Markdown
  • src/: Código fuente (notebooks y scripts)
  • results/: Resultados de benchmarks en CSV
  • instructions/: Instrucciones y plantilla UNIR

A.3 Requisitos de Software

Para reproducir los experimentos se requieren las siguientes dependencias:

Componente Versión
Python 3.11.9
PaddlePaddle 3.2.2
PaddleOCR 3.3.2
Ray 2.52.1
Optuna 4.6.0
jiwer (última versión)
PyMuPDF (última versión)

A.4 Instrucciones de Ejecución

  1. Clonar el repositorio
  2. Instalar dependencias: pip install -r requirements.txt
  3. Ejecutar el notebook src/paddle_ocr_fine_tune_unir_raytune.ipynb

A.5 Licencia

El código se distribuye bajo licencia MIT.