autogen atempt

This commit is contained in:
2025-12-15 23:28:31 +01:00
parent 5f81eaed04
commit a5ea24ab97
23 changed files with 1863 additions and 1100 deletions

Binary file not shown.

269
generate_thesis.py Normal file
View File

@@ -0,0 +1,269 @@
#!/usr/bin/env python3
"""Generate thesis DOCX from HTML template and markdown content."""
import os
import re
import shutil
import subprocess
from bs4 import BeautifulSoup
BASE_DIR = '/Users/sergio/Desktop/MastersThesis'
TEMPLATE_HTM = os.path.join(BASE_DIR, 'instructions/plantilla_individual.htm')
TEMPLATE_FILES = os.path.join(BASE_DIR, 'instructions/plantilla_individual_files')
OUTPUT_HTM = os.path.join(BASE_DIR, 'thesis_output.htm')
OUTPUT_FILES = os.path.join(BASE_DIR, 'thesis_output_files')
OUTPUT_DOCX = os.path.join(BASE_DIR, 'TFM_Sergio_Jimenez_OCR_Optimization.docx')
DOCS_DIR = os.path.join(BASE_DIR, 'docs')
def read_md(filename):
with open(os.path.join(DOCS_DIR, filename), 'r', encoding='utf-8') as f:
return f.read()
def md_to_html(md_text):
"""Convert markdown to simple HTML."""
html = md_text
# Headers
html = re.sub(r'^#### (.+)$', r'<h4>\1</h4>', html, flags=re.MULTILINE)
html = re.sub(r'^### (.+)$', r'<h3>\1</h3>', html, flags=re.MULTILINE)
html = re.sub(r'^## (.+)$', r'<h2>\1</h2>', html, flags=re.MULTILINE)
html = re.sub(r'^# (.+)$', r'<h1>\1</h1>', html, flags=re.MULTILINE)
# Bold and italic
html = re.sub(r'\*\*([^*]+)\*\*', r'<b>\1</b>', html)
html = re.sub(r'\*([^*]+)\*', r'<i>\1</i>', html)
# Inline code
html = re.sub(r'`([^`]+)`', r'<code>\1</code>', html)
# Code blocks
def code_block_replace(match):
lang = match.group(1)
code = match.group(2)
return f'<pre style="background:#f5f5f5;padding:10px;font-family:Consolas;font-size:9pt">{code}</pre>'
html = re.sub(r'```(\w*)\n(.*?)```', code_block_replace, html, flags=re.DOTALL)
# Blockquotes
html = re.sub(r'^>\s*(.+)$', r'<blockquote style="margin-left:2cm;font-style:italic">\1</blockquote>', html, flags=re.MULTILINE)
# Tables
def table_replace(match):
lines = match.group(0).strip().split('\n')
rows = []
for line in lines:
if '---' in line:
continue
cells = [c.strip() for c in line.split('|')[1:-1]]
rows.append(cells)
table_html = '<table border="1" style="border-collapse:collapse;margin:10px 0">'
for i, row in enumerate(rows):
table_html += '<tr>'
tag = 'th' if i == 0 else 'td'
for cell in row:
table_html += f'<{tag} style="padding:5px;border:1px solid #ccc">{cell}</{tag}>'
table_html += '</tr>'
table_html += '</table>'
return table_html
html = re.sub(r'(\|[^\n]+\|\n)+', table_replace, html)
# Bullet lists
def bullet_list_replace(match):
items = match.group(0).strip().split('\n')
list_html = '<ul>'
for item in items:
item_text = re.sub(r'^[\-\*\+]\s*', '', item)
list_html += f'<li>{item_text}</li>'
list_html += '</ul>'
return list_html
html = re.sub(r'(^[\-\*\+]\s+.+\n?)+', bullet_list_replace, html, flags=re.MULTILINE)
# Numbered lists
def num_list_replace(match):
items = match.group(0).strip().split('\n')
list_html = '<ol>'
for item in items:
item_text = re.sub(r'^\d+\.\s*', '', item)
list_html += f'<li>{item_text}</li>'
list_html += '</ol>'
return list_html
html = re.sub(r'(^\d+\.\s+.+\n?)+', num_list_replace, html, flags=re.MULTILINE)
# Paragraphs (lines not already in tags)
lines = html.split('\n')
result = []
for line in lines:
line = line.strip()
if not line:
continue
if line.startswith('<') or line.startswith('{'):
result.append(line)
else:
result.append(f'<p class="MsoNormal">{line}</p>')
return '\n'.join(result)
def main():
print("Reading template...")
with open(TEMPLATE_HTM, 'r', encoding='utf-8', errors='ignore') as f:
html = f.read()
soup = BeautifulSoup(html, 'html.parser')
# Read markdown files
print("Reading markdown content...")
md_files = {
'resumen': read_md('00_resumen.md'),
'intro': read_md('01_introduccion.md'),
'contexto': read_md('02_contexto_estado_arte.md'),
'objetivos': read_md('03_objetivos_metodologia.md'),
'desarrollo': read_md('04_desarrollo_especifico.md'),
'conclusiones': read_md('05_conclusiones_trabajo_futuro.md'),
'referencias': read_md('06_referencias_bibliograficas.md'),
'anexo': read_md('07_anexo_a.md'),
}
# Convert markdown to HTML
print("Converting markdown to HTML...")
html_content = {}
for key, md in md_files.items():
html_content[key] = md_to_html(md)
# Find and replace content sections
print("Replacing template content...")
# Find all WordSection divs and main content areas
sections = soup.find_all('div', class_=lambda x: x and 'WordSection' in x)
# Strategy: Find chapter headings and replace following content
# The template has placeholders we need to replace
# Simple approach: Create new HTML with template structure but our content
new_html = '''<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>TFM - Optimización de Hiperparámetros OCR</title>
<style>
body { font-family: Calibri, sans-serif; font-size: 12pt; line-height: 1.5; margin: 2.5cm 2cm 2.5cm 3cm; }
h1 { font-family: "Calibri Light", sans-serif; font-size: 18pt; color: #0098CD; margin-top: 24pt; }
h2 { font-family: "Calibri Light", sans-serif; font-size: 14pt; color: #0098CD; margin-top: 18pt; }
h3 { font-family: "Calibri Light", sans-serif; font-size: 12pt; margin-top: 12pt; }
h4 { font-family: "Calibri Light", sans-serif; font-size: 11pt; margin-top: 10pt; }
p { text-align: justify; margin: 6pt 0; }
code { font-family: Consolas, monospace; font-size: 10pt; background: #f5f5f5; padding: 2px 4px; }
pre { font-family: Consolas, monospace; font-size: 9pt; background: #f5f5f5; padding: 10px; overflow-x: auto; }
table { border-collapse: collapse; margin: 12pt 0; width: 100%; }
th, td { border: 1px solid #ccc; padding: 6pt; text-align: left; }
th { background: #f0f0f0; font-weight: bold; }
blockquote { margin-left: 2cm; font-style: italic; border-left: 3px solid #0098CD; padding-left: 10px; }
ul, ol { margin: 6pt 0 6pt 1cm; }
li { margin: 3pt 0; }
.title-page { text-align: center; page-break-after: always; }
.title-page h1 { font-size: 24pt; color: #0098CD; }
.chapter { page-break-before: always; }
.referencias p { text-indent: -1.27cm; padding-left: 1.27cm; }
</style>
</head>
<body>
'''
# Title page
new_html += '''
<div class="title-page">
<p style="margin-top:3cm"><img src="thesis_output_files/unir_logo.png" width="200" alt="UNIR Logo"></p>
<p style="margin-top:1cm;font-size:14pt">Universidad Internacional de La Rioja<br>Escuela Superior de Ingeniería y Tecnología</p>
<p style="margin-top:2cm;font-size:12pt">Máster Universitario en Inteligencia Artificial</p>
<h1 style="margin-top:2cm">Optimización de Hiperparámetros OCR con Ray Tune para Documentos Académicos en Español</h1>
<p style="margin-top:3cm">Trabajo Fin de Estudio presentado por: <b>Sergio Jiménez Jiménez</b></p>
<p>Tipo de trabajo: Comparativa de soluciones / Piloto experimental</p>
<p>Director: [Nombre del Director]</p>
<p style="margin-top:2cm">Fecha: 2025</p>
</div>
'''
# Resumen
new_html += '<div class="chapter">\n'
new_html += html_content['resumen']
new_html += '</div>\n'
# Table of contents placeholder
new_html += '''
<div class="chapter">
<h1 style="color:black">Índice de contenidos</h1>
<p><i>[El índice se generará automáticamente en Word]</i></p>
</div>
'''
# Chapters
chapters = [
('intro', 'introduccion'),
('contexto', 'contexto'),
('objetivos', 'objetivos'),
('desarrollo', 'desarrollo'),
('conclusiones', 'conclusiones'),
]
for key, _ in chapters:
new_html += '<div class="chapter">\n'
new_html += html_content[key]
new_html += '</div>\n'
# Referencias
new_html += '<div class="chapter referencias">\n'
new_html += html_content['referencias']
new_html += '</div>\n'
# Anexo
new_html += '<div class="chapter">\n'
new_html += html_content['anexo']
new_html += '</div>\n'
new_html += '</body></html>'
# Save HTML
print(f"Saving HTML to {OUTPUT_HTM}...")
with open(OUTPUT_HTM, 'w', encoding='utf-8') as f:
f.write(new_html)
# Copy template files folder
if os.path.exists(OUTPUT_FILES):
shutil.rmtree(OUTPUT_FILES)
if os.path.exists(TEMPLATE_FILES):
shutil.copytree(TEMPLATE_FILES, OUTPUT_FILES)
# Create UNIR logo placeholder if not exists
os.makedirs(OUTPUT_FILES, exist_ok=True)
# Convert to DOCX using pandoc
print(f"Converting to DOCX with pandoc...")
result = subprocess.run([
'pandoc',
OUTPUT_HTM,
'-o', OUTPUT_DOCX,
'--reference-doc', os.path.join(BASE_DIR, 'instructions/plantilla_individual.docx'),
'--toc',
'--toc-depth=3'
], capture_output=True, text=True)
if result.returncode != 0:
print(f"Pandoc error: {result.stderr}")
# Try without reference doc
print("Retrying without reference doc...")
result = subprocess.run([
'pandoc',
OUTPUT_HTM,
'-o', OUTPUT_DOCX,
'--toc',
'--toc-depth=3'
], capture_output=True, text=True)
if result.returncode == 0:
print(f"✓ Document saved to {OUTPUT_DOCX}")
print(f"✓ HTML version saved to {OUTPUT_HTM}")
else:
print(f"Error: {result.stderr}")
if __name__ == '__main__':
main()

438
generate_thesis_docx.py Normal file
View File

@@ -0,0 +1,438 @@
#!/usr/bin/env python3
"""
Generate thesis.docx from markdown files using UNIR template.
"""
import re
import os
from docx import Document
from docx.shared import Pt, Cm, RGBColor, Inches
from docx.enum.text import WD_ALIGN_PARAGRAPH
from docx.enum.style import WD_STYLE_TYPE
from docx.oxml.ns import qn
from docx.oxml import OxmlElement
# Paths
TEMPLATE_PATH = 'instructions/plantilla_individual.docx'
OUTPUT_PATH = 'TFM_Sergio_Jimenez_OCR_Optimization.docx'
DOCS_PATH = 'docs'
# Thesis metadata
THESIS_TITLE = "Optimización de Hiperparámetros OCR con Ray Tune para Documentos Académicos en Español"
AUTHOR = "Sergio Jiménez Jiménez"
DIRECTOR = "[Nombre del Director]"
DATE = "2025"
def read_markdown_file(filepath):
"""Read markdown file and return content."""
with open(filepath, 'r', encoding='utf-8') as f:
return f.read()
def parse_markdown_blocks(md_content):
"""Parse markdown content into blocks (headers, paragraphs, code, tables, lists)."""
blocks = []
lines = md_content.split('\n')
i = 0
while i < len(lines):
line = lines[i]
# Skip empty lines
if not line.strip():
i += 1
continue
# Code block
if line.strip().startswith('```'):
lang = line.strip()[3:]
code_lines = []
i += 1
while i < len(lines) and not lines[i].strip().startswith('```'):
code_lines.append(lines[i])
i += 1
blocks.append({'type': 'code', 'lang': lang, 'content': '\n'.join(code_lines)})
i += 1
continue
# Headers
if line.startswith('#'):
level = len(line) - len(line.lstrip('#'))
text = line.lstrip('#').strip()
# Remove {.unnumbered} suffix
text = re.sub(r'\s*\{\.unnumbered\}\s*$', '', text)
blocks.append({'type': 'header', 'level': level, 'content': text})
i += 1
continue
# Table
if '|' in line and i + 1 < len(lines) and '---' in lines[i + 1]:
table_lines = [line]
i += 1
while i < len(lines) and '|' in lines[i]:
table_lines.append(lines[i])
i += 1
blocks.append({'type': 'table', 'content': table_lines})
continue
# Blockquote
if line.startswith('>'):
quote_text = line[1:].strip()
i += 1
while i < len(lines) and lines[i].startswith('>'):
quote_text += ' ' + lines[i][1:].strip()
i += 1
blocks.append({'type': 'quote', 'content': quote_text})
continue
# List item (bullet or numbered)
if re.match(r'^[\-\*\+]\s', line) or re.match(r'^\d+\.\s', line):
list_items = []
list_type = 'numbered' if re.match(r'^\d+\.', line) else 'bullet'
while i < len(lines):
current = lines[i]
if re.match(r'^[\-\*\+]\s', current):
list_items.append(current[2:].strip())
i += 1
elif re.match(r'^\d+\.\s', current):
list_items.append(re.sub(r'^\d+\.\s*', '', current).strip())
i += 1
elif current.strip() == '':
break
else:
break
blocks.append({'type': 'list', 'list_type': list_type, 'items': list_items})
continue
# Figure caption (italic text starting with *Figura or Figura)
if line.strip().startswith('*Figura') or line.strip().startswith('Figura'):
blocks.append({'type': 'caption', 'content': line.strip().strip('*')})
i += 1
continue
# Regular paragraph
para_lines = [line]
i += 1
while i < len(lines) and lines[i].strip() and not lines[i].startswith('#') and not lines[i].startswith('```') and not lines[i].startswith('>') and not re.match(r'^[\-\*\+]\s', lines[i]) and not re.match(r'^\d+\.\s', lines[i]) and '|' not in lines[i]:
para_lines.append(lines[i])
i += 1
para_text = ' '.join(para_lines)
blocks.append({'type': 'paragraph', 'content': para_text})
return blocks
def add_formatted_text(paragraph, text):
"""Add text with inline formatting (bold, italic, code) to a paragraph."""
# Pattern for inline formatting
parts = re.split(r'(\*\*[^*]+\*\*|\*[^*]+\*|`[^`]+`)', text)
for part in parts:
if not part:
continue
if part.startswith('**') and part.endswith('**'):
run = paragraph.add_run(part[2:-2])
run.bold = True
elif part.startswith('*') and part.endswith('*'):
run = paragraph.add_run(part[1:-1])
run.italic = True
elif part.startswith('`') and part.endswith('`'):
run = paragraph.add_run(part[1:-1])
run.font.name = 'Consolas'
run.font.size = Pt(10)
else:
paragraph.add_run(part)
def add_table_to_doc(doc, table_lines):
"""Add a markdown table to the document."""
# Parse table
rows = []
for line in table_lines:
if '---' in line:
continue
cells = [c.strip() for c in line.split('|')[1:-1]]
if cells:
rows.append(cells)
if not rows:
return
# Create table
num_cols = len(rows[0])
table = doc.add_table(rows=len(rows), cols=num_cols)
table.style = 'Table Grid'
for i, row_data in enumerate(rows):
row = table.rows[i]
for j, cell_text in enumerate(row_data):
if j < len(row.cells):
cell = row.cells[j]
cell.text = ''
para = cell.paragraphs[0]
add_formatted_text(para, cell_text)
if i == 0: # Header row
for run in para.runs:
run.bold = True
# Add spacing after table
doc.add_paragraph()
def add_code_block(doc, code, lang=''):
"""Add a code block to the document."""
para = doc.add_paragraph()
para.paragraph_format.left_indent = Cm(0.5)
para.paragraph_format.space_before = Pt(6)
para.paragraph_format.space_after = Pt(6)
run = para.add_run(code)
run.font.name = 'Consolas'
run.font.size = Pt(9)
# Add background shading
shading = OxmlElement('w:shd')
shading.set(qn('w:fill'), 'F5F5F5')
para._p.get_or_add_pPr().append(shading)
def get_header_style(level, is_numbered=True):
"""Get the appropriate style for a header level."""
if level == 1:
return 'Heading 1'
elif level == 2:
return 'Heading 2'
elif level == 3:
return 'Heading 3'
elif level == 4:
return 'Heading 4'
else:
return 'Normal'
def add_section_content(doc, md_content, start_numbered=True):
"""Add markdown content to the document with proper formatting."""
blocks = parse_markdown_blocks(md_content)
for block in blocks:
if block['type'] == 'header':
level = block['level']
text = block['content']
# Map markdown header levels to document styles
# ## (level 2) -> Heading 2 (subsection like 1.1. Motivación)
# ### (level 3) -> Heading 3 (sub-subsection like 1.1.1. xxx)
# #### (level 4) -> Heading 4
if level == 1:
# Skip level 1 headers - they're added separately as chapter titles
continue
elif level == 2:
para = doc.add_paragraph(text, style='Heading 2')
elif level == 3:
para = doc.add_paragraph(text, style='Heading 3')
elif level == 4:
para = doc.add_paragraph(text, style='Heading 4')
else:
para = doc.add_paragraph(text)
if para.runs:
para.runs[0].bold = True
elif block['type'] == 'paragraph':
para = doc.add_paragraph()
add_formatted_text(para, block['content'])
elif block['type'] == 'code':
add_code_block(doc, block['content'], block.get('lang', ''))
elif block['type'] == 'table':
add_table_to_doc(doc, block['content'])
elif block['type'] == 'quote':
para = doc.add_paragraph()
para.paragraph_format.left_indent = Cm(1)
para.paragraph_format.right_indent = Cm(1)
add_formatted_text(para, block['content'])
for run in para.runs:
run.italic = True
elif block['type'] == 'list':
for item in block['items']:
if block['list_type'] == 'bullet':
para = doc.add_paragraph(style='List Paragraph')
para.paragraph_format.left_indent = Cm(1)
add_formatted_text(para, '' + item)
else:
para = doc.add_paragraph(style='List Paragraph')
para.paragraph_format.left_indent = Cm(1)
add_formatted_text(para, item)
elif block['type'] == 'caption':
para = doc.add_paragraph()
para.alignment = WD_ALIGN_PARAGRAPH.CENTER
run = para.add_run(block['content'])
run.italic = True
run.font.size = Pt(10)
def create_thesis_document():
"""Create the thesis document from template and markdown files."""
print("Loading template...")
doc = Document(TEMPLATE_PATH)
# Find and update title on cover page
for para in doc.paragraphs[:20]:
if 'Título del TFE' in para.text or 'titulo del TFE' in para.text.lower():
para.clear()
run = para.add_run(THESIS_TITLE)
run.bold = True
# Clear template content after indices (keep cover, resumen structure)
# We'll find where actual content starts and replace it
# Read all markdown files
print("Reading markdown files...")
md_files = {
'resumen': read_markdown_file(os.path.join(DOCS_PATH, '00_resumen.md')),
'introduccion': read_markdown_file(os.path.join(DOCS_PATH, '01_introduccion.md')),
'contexto': read_markdown_file(os.path.join(DOCS_PATH, '02_contexto_estado_arte.md')),
'objetivos': read_markdown_file(os.path.join(DOCS_PATH, '03_objetivos_metodologia.md')),
'desarrollo': read_markdown_file(os.path.join(DOCS_PATH, '04_desarrollo_especifico.md')),
'conclusiones': read_markdown_file(os.path.join(DOCS_PATH, '05_conclusiones_trabajo_futuro.md')),
'referencias': read_markdown_file(os.path.join(DOCS_PATH, '06_referencias_bibliograficas.md')),
'anexo': read_markdown_file(os.path.join(DOCS_PATH, '07_anexo_a.md')),
}
# Create new document based on template but with our content
print("Creating new document with thesis content...")
# Start fresh document with template styles
new_doc = Document(TEMPLATE_PATH)
# Clear all content after a certain point
# Keep first ~70 paragraphs (cover + resumen structure + indices)
paras_to_remove = []
found_intro = False
for i, para in enumerate(new_doc.paragraphs):
if 'Introducción' in para.text and para.style and 'Heading 1' in para.style.name:
found_intro = True
if found_intro:
paras_to_remove.append(para)
# Remove old content
for para in paras_to_remove:
p = para._element
p.getparent().remove(p)
# Now add our content
print("Adding thesis content...")
# Add each chapter
chapters = [
('introduccion', '1. Introducción'),
('contexto', '2. Contexto y estado del arte'),
('objetivos', '3. Objetivos concretos y metodología de trabajo'),
('desarrollo', '4. Desarrollo específico de la contribución'),
('conclusiones', '5. Conclusiones y trabajo futuro'),
]
for key, title in chapters:
print(f" Adding chapter: {title}")
# Add chapter heading with Heading 1 style
new_doc.add_paragraph(title, style='Heading 1')
# Remove the top-level header from content (we added it separately with proper style)
content = md_files[key]
# Remove the first # header line and intro paragraph that follows
content = re.sub(r'^#\s+\d+\.\s+[^\n]+\n+', '', content)
add_section_content(new_doc, content)
new_doc.add_page_break()
# Add Referencias
print(" Adding Referencias bibliográficas")
para = new_doc.add_paragraph('Referencias bibliográficas', style='Título 1 sin numerar')
refs_content = md_files['referencias']
refs_content = re.sub(r'^#[^\n]+\n+', '', refs_content) # Remove header
# Parse references (each reference is a paragraph)
for line in refs_content.split('\n\n'):
if line.strip():
para = new_doc.add_paragraph()
para.paragraph_format.left_indent = Cm(1.27)
para.paragraph_format.first_line_indent = Cm(-1.27)
add_formatted_text(para, line.strip())
new_doc.add_page_break()
# Add Anexo
print(" Adding Anexo A")
para = new_doc.add_paragraph('Anexo A. Código fuente y datos analizados', style='Título 1 sin numerar')
anexo_content = md_files['anexo']
anexo_content = re.sub(r'^#[^\n]+\n+', '', anexo_content)
add_section_content(new_doc, anexo_content)
# Update Resumen/Abstract sections (find them in the document and update)
print("Updating Resumen and Abstract...")
resumen_content = md_files['resumen']
# Parse resumen file to extract Spanish and English parts
resumen_blocks = parse_markdown_blocks(resumen_content)
spanish_paragraphs = []
english_paragraphs = []
keywords_es = ""
keywords_en = ""
current_section = None
for block in resumen_blocks:
if block['type'] == 'header':
if 'Resumen' in block['content']:
current_section = 'es'
elif 'Abstract' in block['content']:
current_section = 'en'
elif block['type'] == 'paragraph':
text = block['content']
if 'Palabras clave:' in text:
keywords_es = text
elif 'Keywords:' in text:
keywords_en = text
elif current_section == 'es' and text.strip():
spanish_paragraphs.append(text)
elif current_section == 'en' and text.strip():
english_paragraphs.append(text)
# Find and update Resumen section in doc
found_resumen = False
found_abstract = False
for i, para in enumerate(new_doc.paragraphs):
text = para.text.strip()
if 'Resumen' in text and para.style and 'Título' in para.style.name:
found_resumen = True
# Update following paragraphs
for j, sp in enumerate(spanish_paragraphs[:3]): # Limit to first 3 paragraphs
if i + j + 1 < len(new_doc.paragraphs):
target_para = new_doc.paragraphs[i + j + 1]
if target_para.style and target_para.style.name == 'Normal':
target_para.clear()
add_formatted_text(target_para, sp)
elif 'Abstract' in text and para.style and 'Título' in para.style.name:
found_abstract = True
for j, ep in enumerate(english_paragraphs[:3]):
if i + j + 1 < len(new_doc.paragraphs):
target_para = new_doc.paragraphs[i + j + 1]
if target_para.style and target_para.style.name == 'Normal':
target_para.clear()
add_formatted_text(target_para, ep)
# Save document
print(f"Saving document to {OUTPUT_PATH}...")
new_doc.save(OUTPUT_PATH)
print(f"Done! Document saved as {OUTPUT_PATH}")
if __name__ == '__main__':
os.chdir('/Users/sergio/Desktop/MastersThesis')
create_thesis_document()

File diff suppressed because one or more lines are too long

751
thesis_output.htm Normal file
View File

@@ -0,0 +1,751 @@
<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>TFM - Optimización de Hiperparámetros OCR</title>
<style>
body { font-family: Calibri, sans-serif; font-size: 12pt; line-height: 1.5; margin: 2.5cm 2cm 2.5cm 3cm; }
h1 { font-family: "Calibri Light", sans-serif; font-size: 18pt; color: #0098CD; margin-top: 24pt; }
h2 { font-family: "Calibri Light", sans-serif; font-size: 14pt; color: #0098CD; margin-top: 18pt; }
h3 { font-family: "Calibri Light", sans-serif; font-size: 12pt; margin-top: 12pt; }
h4 { font-family: "Calibri Light", sans-serif; font-size: 11pt; margin-top: 10pt; }
p { text-align: justify; margin: 6pt 0; }
code { font-family: Consolas, monospace; font-size: 10pt; background: #f5f5f5; padding: 2px 4px; }
pre { font-family: Consolas, monospace; font-size: 9pt; background: #f5f5f5; padding: 10px; overflow-x: auto; }
table { border-collapse: collapse; margin: 12pt 0; width: 100%; }
th, td { border: 1px solid #ccc; padding: 6pt; text-align: left; }
th { background: #f0f0f0; font-weight: bold; }
blockquote { margin-left: 2cm; font-style: italic; border-left: 3px solid #0098CD; padding-left: 10px; }
ul, ol { margin: 6pt 0 6pt 1cm; }
li { margin: 3pt 0; }
.title-page { text-align: center; page-break-after: always; }
.title-page h1 { font-size: 24pt; color: #0098CD; }
.chapter { page-break-before: always; }
.referencias p { text-indent: -1.27cm; padding-left: 1.27cm; }
</style>
</head>
<body>
<div class="title-page">
<p style="margin-top:3cm"><img src="thesis_output_files/unir_logo.png" width="200" alt="UNIR Logo"></p>
<p style="margin-top:1cm;font-size:14pt">Universidad Internacional de La Rioja<br>Escuela Superior de Ingeniería y Tecnología</p>
<p style="margin-top:2cm;font-size:12pt">Máster Universitario en Inteligencia Artificial</p>
<h1 style="margin-top:2cm">Optimización de Hiperparámetros OCR con Ray Tune para Documentos Académicos en Español</h1>
<p style="margin-top:3cm">Trabajo Fin de Estudio presentado por: <b>Sergio Jiménez Jiménez</b></p>
<p>Tipo de trabajo: Comparativa de soluciones / Piloto experimental</p>
<p>Director: [Nombre del Director]</p>
<p style="margin-top:2cm">Fecha: 2025</p>
</div>
<div class="chapter">
<h1>Resumen</h1>
<p class="MsoNormal">El presente Trabajo Fin de Máster aborda la optimización de sistemas de Reconocimiento Óptico de Caracteres (OCR) basados en inteligencia artificial para documentos en español, específicamente en un entorno con recursos computacionales limitados donde el fine-tuning de modelos no es viable. El objetivo principal es identificar la configuración óptima de hiperparámetros que maximice la precisión del reconocimiento de texto sin requerir entrenamiento adicional de los modelos.</p>
<p class="MsoNormal">Se realizó un estudio comparativo de tres soluciones OCR de código abierto: EasyOCR, PaddleOCR (PP-OCRv5) y DocTR, evaluando su rendimiento mediante las métricas estándar CER (Character Error Rate) y WER (Word Error Rate) sobre un corpus de documentos académicos en español. Tras identificar PaddleOCR como la solución más prometedora, se procedió a una optimización sistemática de hiperparámetros utilizando Ray Tune con el algoritmo de búsqueda Optuna, ejecutando 64 configuraciones diferentes.</p>
<p class="MsoNormal">Los resultados demuestran que la optimización de hiperparámetros logró una mejora significativa del rendimiento: el CER se redujo de 7.78% a 1.49% (mejora del 80.9% en reducción de errores), alcanzando una precisión de caracteres del 98.51%. El hallazgo más relevante fue que el parámetro <code>textline_orientation</code> (clasificación de orientación de línea de texto) tiene un impacto crítico, reduciendo el CER en un 69.7% cuando está habilitado. Adicionalmente, se identificó que el umbral de detección de píxeles (<code>text_det_thresh</code>) presenta una correlación negativa fuerte (-0.52) con el error, siendo el parámetro continuo más influyente.</p>
<p class="MsoNormal">Este trabajo demuestra que es posible obtener mejoras sustanciales en sistemas OCR mediante optimización de hiperparámetros, ofreciendo una alternativa práctica al fine-tuning cuando los recursos computacionales son limitados.</p>
<b>Palabras clave:</b> OCR, Reconocimiento Óptico de Caracteres, PaddleOCR, Optimización de Hiperparámetros, Ray Tune, Procesamiento de Documentos, Inteligencia Artificial
<p class="MsoNormal">---</p>
<h1>Abstract</h1>
<p class="MsoNormal">This Master's Thesis addresses the optimization of Artificial Intelligence-based Optical Character Recognition (OCR) systems for Spanish documents, specifically in a resource-constrained environment where model fine-tuning is not feasible. The main objective is to identify the optimal hyperparameter configuration that maximizes text recognition accuracy without requiring additional model training.</p>
<p class="MsoNormal">A comparative study of three open-source OCR solutions was conducted: EasyOCR, PaddleOCR (PP-OCRv5), and DocTR, evaluating their performance using standard CER (Character Error Rate) and WER (Word Error Rate) metrics on a corpus of academic documents in Spanish. After identifying PaddleOCR as the most promising solution, systematic hyperparameter optimization was performed using Ray Tune with the Optuna search algorithm, executing 64 different configurations.</p>
<p class="MsoNormal">Results demonstrate that hyperparameter optimization achieved significant performance improvement: CER was reduced from 7.78% to 1.49% (80.9% error reduction), achieving 98.51% character accuracy. The most relevant finding was that the <code>textline_orientation</code> parameter (text line orientation classification) has a critical impact, reducing CER by 69.7% when enabled. Additionally, the pixel detection threshold (<code>text_det_thresh</code>) was found to have a strong negative correlation (-0.52) with error, being the most influential continuous parameter.</p>
<p class="MsoNormal">This work demonstrates that substantial improvements in OCR systems can be obtained through hyperparameter optimization, offering a practical alternative to fine-tuning when computational resources are limited.</p>
<b>Keywords:</b> OCR, Optical Character Recognition, PaddleOCR, Hyperparameter Optimization, Ray Tune, Document Processing, Artificial Intelligence</div>
<div class="chapter">
<h1 style="color:black">Índice de contenidos</h1>
<p><i>[El índice se generará automáticamente en Word]</i></p>
</div>
<div class="chapter">
<h1>1. Introducción</h1>
<p class="MsoNormal">Este capítulo presenta la motivación del trabajo, identificando el problema a resolver y justificando su relevancia. Se plantea la pregunta de investigación central y se describe la estructura del documento.</p>
<h2>1.1. Motivación</h2>
<p class="MsoNormal">El Reconocimiento Óptico de Caracteres (OCR) es una tecnología fundamental en la era de la digitalización documental. Su capacidad para convertir imágenes de texto en datos editables y procesables ha transformado sectores como la administración pública, el ámbito legal, la banca y la educación. Sin embargo, a pesar de los avances significativos impulsados por el aprendizaje profundo, la implementación práctica de sistemas OCR de alta precisión sigue presentando desafíos considerables.</p>
<p class="MsoNormal">El procesamiento de documentos en español presenta particularidades que complican el reconocimiento automático de texto. Los caracteres especiales (ñ, acentos), las variaciones tipográficas en documentos académicos y administrativos, y la presencia de elementos gráficos como tablas, encabezados y marcas de agua generan errores que pueden propagarse en aplicaciones downstream como la extracción de entidades nombradas o el análisis semántico.</p>
<p class="MsoNormal">Los modelos OCR basados en redes neuronales profundas, como los empleados en PaddleOCR, EasyOCR o DocTR, ofrecen un rendimiento impresionante en benchmarks estándar. No obstante, su adaptación a dominios específicos típicamente requiere fine-tuning con datos etiquetados del dominio objetivo y recursos computacionales significativos (GPUs de alta capacidad). Esta barrera técnica y económica excluye a muchos investigadores y organizaciones de beneficiarse plenamente de estas tecnologías.</p>
<p class="MsoNormal">La presente investigación surge de una necesidad práctica: optimizar un sistema OCR para documentos académicos en español sin disponer de recursos GPU para realizar fine-tuning. Esta restricción, lejos de ser una limitación excepcional, representa la realidad de muchos entornos académicos y empresariales donde el acceso a infraestructura de cómputo avanzada es limitado.</p>
<h2>1.2. Planteamiento del trabajo</h2>
<p class="MsoNormal">El problema central que aborda este trabajo puede formularse de la siguiente manera:</p>
<blockquote style="margin-left:2cm;font-style:italic">¿Es posible mejorar significativamente el rendimiento de modelos OCR preentrenados para documentos en español mediante la optimización sistemática de hiperparámetros, sin requerir fine-tuning ni recursos GPU?</blockquote>
<p class="MsoNormal">Este planteamiento se descompone en las siguientes cuestiones específicas:</p>
<ol><li><b>Selección de modelo base</b>: ¿Cuál de las soluciones OCR de código abierto disponibles (EasyOCR, PaddleOCR, DocTR) ofrece el mejor rendimiento base para documentos en español?</li></ol>
<ol><li><b>Impacto de hiperparámetros</b>: ¿Qué hiperparámetros del pipeline OCR tienen mayor influencia en las métricas de error (CER, WER)?</li></ol>
<ol><li><b>Optimización automatizada</b>: ¿Puede un proceso de búsqueda automatizada de hiperparámetros (mediante Ray Tune/Optuna) encontrar configuraciones que superen significativamente los valores por defecto?</li></ol>
<ol><li><b>Viabilidad práctica</b>: ¿Son los tiempos de inferencia y los recursos requeridos compatibles con un despliegue en entornos con recursos limitados?</li></ol>
<p class="MsoNormal">La relevancia de este problema radica en su aplicabilidad inmediata. Una metodología reproducible para optimizar OCR sin fine-tuning beneficiaría a:</p>
<ul><li>Investigadores que procesan grandes volúmenes de documentos académicos</li><li>Instituciones educativas que digitalizan archivos históricos</li><li>Pequeñas y medianas empresas que automatizan flujos documentales</li><li>Desarrolladores que integran OCR en aplicaciones con restricciones de recursos</li></ul>
<h2>1.3. Estructura del trabajo</h2>
<p class="MsoNormal">El presente documento se organiza en los siguientes capítulos:</p>
<b>Capítulo 2 - Contexto y Estado del Arte</b>: Se presenta una revisión de las tecnologías OCR basadas en aprendizaje profundo, incluyendo las arquitecturas de detección y reconocimiento de texto, así como los trabajos previos en optimización de estos sistemas.
<b>Capítulo 3 - Objetivos y Metodología</b>: Se definen los objetivos SMART del trabajo y se describe la metodología experimental seguida, incluyendo la preparación del dataset, las métricas de evaluación y el proceso de optimización con Ray Tune.
<b>Capítulo 4 - Desarrollo Específico de la Contribución</b>: Este capítulo presenta el desarrollo completo del estudio comparativo y la optimización de hiperparámetros de sistemas OCR, estructurado en tres secciones: (4.1) planteamiento de la comparativa con la evaluación de EasyOCR, PaddleOCR y DocTR; (4.2) desarrollo de la comparativa con la optimización de hiperparámetros mediante Ray Tune; y (4.3) discusión y análisis de resultados.
<b>Capítulo 5 - Conclusiones y Trabajo Futuro</b>: Se resumen las contribuciones del trabajo, se discute el grado de cumplimiento de los objetivos y se proponen líneas de trabajo futuro.
<b>Anexos</b>: Se incluye el enlace al repositorio de código fuente y datos, así como tablas completas de resultados experimentales.</div>
<div class="chapter">
<h1>2. Contexto y estado del arte</h1>
<p class="MsoNormal">Este capítulo presenta el marco teórico y tecnológico en el que se desarrolla el presente trabajo. Se revisan los fundamentos del Reconocimiento Óptico de Caracteres (OCR), la evolución de las técnicas basadas en aprendizaje profundo, las principales soluciones de código abierto disponibles y los trabajos previos relacionados con la optimización de sistemas OCR.</p>
<h2>2.1. Contexto del problema</h2>
<h3>Definición y Evolución Histórica del OCR</h3>
<p class="MsoNormal">El Reconocimiento Óptico de Caracteres (OCR) es el proceso de conversión de imágenes de texto manuscrito, mecanografiado o impreso en texto codificado digitalmente. La tecnología OCR ha evolucionado significativamente desde sus orígenes en la década de 1950:</p>
<ul><li><b>Primera generación (1950-1970)</b>: Sistemas basados en plantillas que requerían fuentes específicas.</li><li><b>Segunda generación (1970-1990)</b>: Introducción de técnicas de extracción de características y clasificadores estadísticos.</li><li><b>Tercera generación (1990-2010)</b>: Modelos basados en Redes Neuronales Artificiales y Modelos Ocultos de Markov (HMM).</li><li><b>Cuarta generación (2010-presente)</b>: Arquitecturas de aprendizaje profundo que dominan el estado del arte.</li></ul>
<h3>Pipeline Moderno de OCR</h3>
<p class="MsoNormal">Los sistemas OCR modernos siguen típicamente un pipeline de dos etapas:</p>
<p class="MsoNormal">``<code>mermaid</p>
<p class="MsoNormal">flowchart LR</p>
<p class="MsoNormal">subgraph Input</p>
<p class="MsoNormal">A["Imagen de<br/>documento"]</p>
<p class="MsoNormal">end</p>
<p class="MsoNormal">subgraph "Etapa 1: Detección"</p>
<p class="MsoNormal">B["Text Detection<br/>(DB, EAST, CRAFT)"]</p>
<p class="MsoNormal">end</p>
<p class="MsoNormal">subgraph "Etapa 2: Reconocimiento"</p>
<p class="MsoNormal">C["Text Recognition<br/>(CRNN, SVTR, Transformer)"]</p>
<p class="MsoNormal">end</p>
<p class="MsoNormal">subgraph Output</p>
<p class="MsoNormal">D["Texto<br/>extraído"]</p>
<p class="MsoNormal">end</p>
<p class="MsoNormal">A --> B</p>
<p class="MsoNormal">B -->|"Regiones de texto<br/>(bounding boxes)"| C</p>
<p class="MsoNormal">C --> D</p>
<p class="MsoNormal">style A fill:#e1f5fe</p>
<p class="MsoNormal">style D fill:#c8e6c9</p>
</code>`<code>
<i>Figura 1. Pipeline típico de un sistema OCR moderno con etapas de detección y reconocimiento.</i>
<ol><li><b>Detección de texto (Text Detection)</b>: Localización de regiones que contienen texto en la imagen. Las arquitecturas más utilizadas incluyen:</li></ol> - EAST (Efficient and Accurate Scene Text Detector)
<p class="MsoNormal">- CRAFT (Character Region Awareness for Text Detection)</p>
<p class="MsoNormal">- DB (Differentiable Binarization)</p>
<ol><li><b>Reconocimiento de texto (Text Recognition)</b>: Transcripción del contenido textual de las regiones detectadas. Las arquitecturas predominantes son:</li></ol> - CRNN (Convolutional Recurrent Neural Network) con CTC loss
<p class="MsoNormal">- Arquitecturas encoder-decoder con atención</p>
<p class="MsoNormal">- Transformers (ViTSTR, TrOCR)</p>
<h3>Métricas de Evaluación</h3>
<p class="MsoNormal">Las métricas estándar para evaluar sistemas OCR son:</p>
<b>Character Error Rate (CER)</b>: Se calcula como CER = (S + D + I) / N, donde S = sustituciones, D = eliminaciones, I = inserciones, N = caracteres de referencia.
<b>Word Error Rate (WER)</b>: Se calcula de forma análoga pero a nivel de palabras en lugar de caracteres.
<p class="MsoNormal">Un CER del 1% significa que 1 de cada 100 caracteres es erróneo. Para aplicaciones críticas como extracción de datos financieros o médicos, se requieren CER inferiores al 1%.</p>
<h3>Particularidades del OCR para el Idioma Español</h3>
<p class="MsoNormal">El español presenta características específicas que impactan el OCR:</p>
<ul><li><b>Caracteres especiales</b>: ñ, á, é, í, ó, ú, ü, ¿, ¡</li><li><b>Diacríticos</b>: Los acentos pueden confundirse con ruido o artefactos</li><li><b>Longitud de palabras</b>: Palabras generalmente más largas que en inglés</li><li><b>Puntuación</b>: Signos de interrogación y exclamación invertidos</li></ul>
<h2>2.2. Estado del arte</h2>
<h3>Soluciones OCR de Código Abierto</h3>
<h4>EasyOCR</h4>
<p class="MsoNormal">EasyOCR es una biblioteca de OCR desarrollada por Jaided AI (2020) que soporta más de 80 idiomas. Sus características principales incluyen:</p>
<ul><li><b>Arquitectura</b>: Detector CRAFT + Reconocedor CRNN/Transformer</li><li><b>Fortalezas</b>: Facilidad de uso, soporte multilingüe amplio, bajo consumo de memoria</li><li><b>Limitaciones</b>: Menor precisión en documentos complejos, opciones de configuración limitadas</li><li><b>Caso de uso ideal</b>: Prototipado rápido y aplicaciones con restricciones de memoria</li></ul>
<h4>PaddleOCR</h4>
<p class="MsoNormal">PaddleOCR es el sistema OCR desarrollado por Baidu como parte del ecosistema PaddlePaddle (2024). La versión PP-OCRv5, utilizada en este trabajo, representa el estado del arte en OCR industrial:</p>
<ul><li><b>Arquitectura</b>:</li></ul> - Detector: DB (Differentiable Binarization) con backbone ResNet (Liao et al., 2020)
<p class="MsoNormal">- Reconocedor: SVTR (Scene-Text Visual Transformer Recognition)</p>
<p class="MsoNormal">- Clasificador de orientación opcional</p>
<ul><li><b>Hiperparámetros configurables</b>:</li></ul>
<b>Tabla 1.</b> <i>Hiperparámetros configurables de PaddleOCR.</i>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Parámetro</th><th style="padding:5px;border:1px solid #ccc">Descripción</th><th style="padding:5px;border:1px solid #ccc">Valor por defecto</th></tr><tr><td style="padding:5px;border:1px solid #ccc"></code>text_det_thresh<code></td><td style="padding:5px;border:1px solid #ccc">Umbral de detección de píxeles</td><td style="padding:5px;border:1px solid #ccc">0.3</td></tr><tr><td style="padding:5px;border:1px solid #ccc"></code>text_det_box_thresh<code></td><td style="padding:5px;border:1px solid #ccc">Umbral de caja de detección</td><td style="padding:5px;border:1px solid #ccc">0.6</td></tr><tr><td style="padding:5px;border:1px solid #ccc"></code>text_det_unclip_ratio<code></td><td style="padding:5px;border:1px solid #ccc">Coeficiente de expansión</td><td style="padding:5px;border:1px solid #ccc">1.5</td></tr><tr><td style="padding:5px;border:1px solid #ccc"></code>text_rec_score_thresh<code></td><td style="padding:5px;border:1px solid #ccc">Umbral de confianza de reconocimiento</td><td style="padding:5px;border:1px solid #ccc">0.5</td></tr><tr><td style="padding:5px;border:1px solid #ccc"></code>use_textline_orientation<code></td><td style="padding:5px;border:1px solid #ccc">Clasificación de orientación</td><td style="padding:5px;border:1px solid #ccc">False</td></tr><tr><td style="padding:5px;border:1px solid #ccc"></code>use_doc_orientation_classify<code></td><td style="padding:5px;border:1px solid #ccc">Clasificación de orientación de documento</td><td style="padding:5px;border:1px solid #ccc">False</td></tr><tr><td style="padding:5px;border:1px solid #ccc"></code>use_doc_unwarping<code></td><td style="padding:5px;border:1px solid #ccc">Corrección de deformación</td><td style="padding:5px;border:1px solid #ccc">False</td></tr></table>
<i>Fuente: Documentación oficial de PaddleOCR (PaddlePaddle, 2024).</i>
<ul><li><b>Fortalezas</b>: Alta precisión, pipeline altamente configurable, modelos específicos para servidor</li><li><b>Limitaciones</b>: Mayor complejidad de configuración, dependencia del framework PaddlePaddle</li></ul>
<h4>DocTR</h4>
<p class="MsoNormal">DocTR (Document Text Recognition) es una biblioteca desarrollada por Mindee (2021) orientada a la investigación:</p>
<ul><li><b>Arquitectura</b>:</li></ul> - Detectores: DB, LinkNet
<p class="MsoNormal">- Reconocedores: CRNN, SAR, ViTSTR</p>
<ul><li><b>Fortalezas</b>: API limpia, orientación académica, salida estructurada de alto nivel</li><li><b>Limitaciones</b>: Menor rendimiento en español comparado con PaddleOCR</li></ul>
<h4>Comparativa de Arquitecturas</h4>
<b>Tabla 2.</b> <i>Comparativa de soluciones OCR de código abierto.</i>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Modelo</th><th style="padding:5px;border:1px solid #ccc">Tipo</th><th style="padding:5px;border:1px solid #ccc">Componentes</th><th style="padding:5px;border:1px solid #ccc">Fortalezas Clave</th></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>EasyOCR</b></td><td style="padding:5px;border:1px solid #ccc">End-to-end (det + rec)</td><td style="padding:5px;border:1px solid #ccc">CRAFT + CRNN/Transformer</td><td style="padding:5px;border:1px solid #ccc">Ligero, fácil de usar, multilingüe</td></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>PaddleOCR</b></td><td style="padding:5px;border:1px solid #ccc">End-to-end (det + rec + cls)</td><td style="padding:5px;border:1px solid #ccc">DB + SVTR/CRNN</td><td style="padding:5px;border:1px solid #ccc">Soporte multilingüe robusto, configurable</td></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>DocTR</b></td><td style="padding:5px;border:1px solid #ccc">End-to-end (det + rec)</td><td style="padding:5px;border:1px solid #ccc">DB/LinkNet + CRNN/SAR/ViTSTR</td><td style="padding:5px;border:1px solid #ccc">Orientado a investigación, API limpia</td></tr></table>
<i>Fuente: Documentación oficial de cada herramienta (JaidedAI, 2020; PaddlePaddle, 2024; Mindee, 2021).</i>
<h3>Optimización de Hiperparámetros</h3>
<h4>Fundamentos</h4>
<p class="MsoNormal">La optimización de hiperparámetros (HPO) busca encontrar la configuración de parámetros que maximiza (o minimiza) una métrica objetivo (Feurer & Hutter, 2019). A diferencia de los parámetros del modelo (pesos), los hiperparámetros no se aprenden durante el entrenamiento.</p>
<p class="MsoNormal">Los métodos de HPO incluyen:</p>
<ul><li><b>Grid Search</b>: Búsqueda exhaustiva en una rejilla predefinida</li><li><b>Random Search</b>: Muestreo aleatorio del espacio de búsqueda (Bergstra & Bengio, 2012)</li><li><b>Bayesian Optimization</b>: Modelado probabilístico de la función objetivo (Bergstra et al., 2011)</li><li><b>Algoritmos evolutivos</b>: Optimización inspirada en evolución biológica</li></ul>
<h4>Ray Tune y Optuna</h4>
<b>Ray Tune</b> es un framework de optimización de hiperparámetros escalable (Liaw et al., 2018) que permite:
<ul><li>Ejecución paralela de experimentos</li><li>Early stopping de configuraciones poco prometedoras</li><li>Integración con múltiples algoritmos de búsqueda</li></ul>
<b>Optuna</b> es una biblioteca de optimización bayesiana (Akiba et al., 2019) que implementa:
<ul><li>Tree-structured Parzen Estimator (TPE)</li><li>Pruning de trials no prometedores</li><li>Visualización de resultados</li></ul>
<p class="MsoNormal">La combinación Ray Tune + Optuna permite búsquedas eficientes en espacios de alta dimensionalidad.</p>
</code>`<code>mermaid
<p class="MsoNormal">flowchart TD</p>
<p class="MsoNormal">subgraph "Ray Tune"</p>
<p class="MsoNormal">A["Espacio de<br/>búsqueda"]</p>
<p class="MsoNormal">B["Scheduler<br/>(gestión de trials)"]</p>
<p class="MsoNormal">C["Trial 1"]</p>
<p class="MsoNormal">D["Trial 2"]</p>
<p class="MsoNormal">E["Trial N"]</p>
<p class="MsoNormal">end</p>
<p class="MsoNormal">subgraph "Optuna (TPE)"</p>
<p class="MsoNormal">F["Modelo probabilístico<br/>de la función objetivo"]</p>
<p class="MsoNormal">G["Sugiere nueva<br/>configuración"]</p>
<p class="MsoNormal">end</p>
<p class="MsoNormal">subgraph "Evaluación"</p>
<p class="MsoNormal">H["Ejecuta modelo OCR<br/>con config"]</p>
<p class="MsoNormal">I["Calcula métricas<br/>(CER, WER)"]</p>
<p class="MsoNormal">end</p>
<p class="MsoNormal">A --> B</p>
<p class="MsoNormal">B --> C & D & E</p>
<p class="MsoNormal">C & D & E --> H</p>
<p class="MsoNormal">H --> I</p>
<p class="MsoNormal">I -->|"Resultados"| F</p>
<p class="MsoNormal">F --> G</p>
<p class="MsoNormal">G -->|"Nueva config"| B</p>
<p class="MsoNormal">style A fill:#fff3e0</p>
<p class="MsoNormal">style I fill:#e8f5e9</p>
</code>``
<i>Figura 2. Arquitectura de optimización de hiperparámetros con Ray Tune y Optuna.</i>
<h4>HPO en Sistemas OCR</h4>
<p class="MsoNormal">La aplicación de HPO a sistemas OCR ha sido explorada principalmente en el contexto de:</p>
<ol><li><b>Preprocesamiento de imagen</b>: Optimización de parámetros de binarización, filtrado y escalado (Liang et al., 2005)</li></ol>
<ol><li><b>Arquitecturas de detección</b>: Ajuste de umbrales de confianza y NMS (Non-Maximum Suppression)</li></ol>
<ol><li><b>Post-procesamiento</b>: Optimización de corrección ortográfica y modelos de lenguaje</li></ol>
<p class="MsoNormal">Sin embargo, existe un vacío en la literatura respecto a la optimización sistemática de los hiperparámetros de inferencia en pipelines OCR modernos como PaddleOCR, especialmente para idiomas diferentes del inglés y chino.</p>
<h3>Datasets y Benchmarks para Español</h3>
<p class="MsoNormal">Los principales recursos para evaluación de OCR en español incluyen:</p>
<ul><li><b>FUNSD-ES</b>: Versión en español del dataset de formularios</li><li><b>MLT (ICDAR)</b>: Multi-Language Text dataset con muestras en español</li><li><b>Documentos académicos</b>: Utilizados en este trabajo (instrucciones TFE de UNIR)</li></ul>
<p class="MsoNormal">Los trabajos previos en OCR para español se han centrado principalmente en:</p>
<ol><li>Digitalización de archivos históricos (manuscritos coloniales)</li><li>Procesamiento de documentos de identidad</li><li>Reconocimiento de texto en escenas naturales</li></ol>
<p class="MsoNormal">La optimización de hiperparámetros para documentos académicos en español representa una contribución original de este trabajo.</p>
<h2>2.3. Conclusiones</h2>
<p class="MsoNormal">Este capítulo ha presentado:</p>
<ol><li>Los fundamentos del OCR moderno y su pipeline de detección-reconocimiento</li><li>Las tres principales soluciones de código abierto: EasyOCR, PaddleOCR y DocTR</li><li>Los métodos de optimización de hiperparámetros, con énfasis en Ray Tune y Optuna</li><li>Las particularidades del OCR para el idioma español</li></ol>
<p class="MsoNormal">El estado del arte revela que, si bien existen soluciones OCR de alta calidad, su optimización para dominios específicos mediante ajuste de hiperparámetros (sin fine-tuning) ha recibido poca atención. Este trabajo contribuye a llenar ese vacío proponiendo una metodología reproducible para la optimización de PaddleOCR en documentos académicos en español.</p></div>
<div class="chapter">
<h1>3. Objetivos concretos y metodología de trabajo</h1>
<p class="MsoNormal">Este capítulo establece los objetivos del trabajo siguiendo la metodología SMART (Doran, 1981) y describe la metodología experimental empleada para alcanzarlos. Se define un objetivo general y cinco objetivos específicos, todos ellos medibles y verificables.</p>
<h2>3.1. Objetivo general</h2>
<blockquote style="margin-left:2cm;font-style:italic"><b>Optimizar el rendimiento de PaddleOCR para documentos académicos en español mediante ajuste de hiperparámetros, alcanzando un CER inferior al 2% sin requerir fine-tuning del modelo ni recursos GPU dedicados.</b></blockquote>
<h3>Justificación SMART del Objetivo General</h3>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Criterio</th><th style="padding:5px;border:1px solid #ccc">Cumplimiento</th></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>Específico (S)</b></td><td style="padding:5px;border:1px solid #ccc">Se define claramente qué se quiere lograr: optimizar PaddleOCR mediante ajuste de hiperparámetros para documentos en español</td></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>Medible (M)</b></td><td style="padding:5px;border:1px solid #ccc">Se establece una métrica cuantificable: CER < 2%</td></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>Alcanzable (A)</b></td><td style="padding:5px;border:1px solid #ccc">Es viable dado que: (1) PaddleOCR permite configuración de hiperparámetros, (2) Ray Tune posibilita búsqueda automatizada, (3) No se requiere GPU</td></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>Relevante (R)</b></td><td style="padding:5px;border:1px solid #ccc">El impacto es demostrable: mejora la extracción de texto en documentos académicos sin costes adicionales de infraestructura</td></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>Temporal (T)</b></td><td style="padding:5px;border:1px solid #ccc">El plazo es un cuatrimestre, correspondiente al TFM</td></tr></table>
<h2>3.2. Objetivos específicos</h2>
<h3>OE1: Comparar soluciones OCR de código abierto</h3>
<blockquote style="margin-left:2cm;font-style:italic"><b>Evaluar el rendimiento base de EasyOCR, PaddleOCR y DocTR en documentos académicos en español, utilizando CER y WER como métricas, para seleccionar el modelo más prometedor.</b></blockquote>
<h3>OE2: Preparar un dataset de evaluación</h3>
<blockquote style="margin-left:2cm;font-style:italic"><b>Construir un dataset estructurado de imágenes de documentos académicos en español con su texto de referencia (ground truth) extraído del PDF original.</b></blockquote>
<h3>OE3: Identificar hiperparámetros críticos</h3>
<blockquote style="margin-left:2cm;font-style:italic"><b>Analizar la correlación entre los hiperparámetros de PaddleOCR y las métricas de error para identificar los parámetros con mayor impacto en el rendimiento.</b></blockquote>
<h3>OE4: Optimizar hiperparámetros con Ray Tune</h3>
<blockquote style="margin-left:2cm;font-style:italic"><b>Ejecutar una búsqueda automatizada de hiperparámetros utilizando Ray Tune con Optuna, evaluando al menos 50 configuraciones diferentes.</b></blockquote>
<h3>OE5: Validar la configuración optimizada</h3>
<blockquote style="margin-left:2cm;font-style:italic"><b>Comparar el rendimiento de la configuración baseline versus la configuración optimizada sobre el dataset completo, documentando la mejora obtenida.</b></blockquote>
<h2>3.3. Metodología del trabajo</h2>
<h3>3.3.1. Visión General</h3>
<p class="MsoNormal">``<code>mermaid</p>
<p class="MsoNormal">flowchart TD</p>
<p class="MsoNormal">A["Fase 1: Preparación del Dataset<br/></p>
<p class="MsoNormal">• Conversión PDF → Imágenes (300 DPI)<br/></p>
<p class="MsoNormal">• Extracción de texto de referencia (PyMuPDF)<br/></p>
<p class="MsoNormal">• Estructura: carpetas img/ y txt/ pareadas"]</p>
<p class="MsoNormal">B["Fase 2: Benchmark Comparativo<br/></p>
<p class="MsoNormal">• Evaluación de EasyOCR, PaddleOCR, DocTR<br/></p>
<p class="MsoNormal">• Métricas: CER, WER<br/></p>
<p class="MsoNormal">• Selección del modelo base"]</p>
<p class="MsoNormal">C["Fase 3: Definición del Espacio de Búsqueda<br/></p>
<p class="MsoNormal">• Identificación de hiperparámetros configurables<br/></p>
<p class="MsoNormal">• Definición de rangos y distribuciones<br/></p>
<p class="MsoNormal">• Configuración de Ray Tune + Optuna"]</p>
<p class="MsoNormal">D["Fase 4: Optimización de Hiperparámetros<br/></p>
<p class="MsoNormal">• Ejecución de 64 trials con Ray Tune<br/></p>
<p class="MsoNormal">• Paralelización (2 trials concurrentes)<br/></p>
<p class="MsoNormal">• Registro de métricas y configuraciones"]</p>
<p class="MsoNormal">E["Fase 5: Validación y Análisis<br/></p>
<p class="MsoNormal">• Comparación baseline vs optimizado<br/></p>
<p class="MsoNormal">• Análisis de correlaciones<br/></p>
<p class="MsoNormal">• Documentación de resultados"]</p>
<p class="MsoNormal">A --> B --> C --> D --> E</p>
</code>`<code>
<h3>3.3.2. Fase 1: Preparación del Dataset</h3>
<h4>Fuente de Datos</h4>
<p class="MsoNormal">Se utilizaron documentos PDF académicos de UNIR (Universidad Internacional de La Rioja), específicamente las instrucciones para la elaboración del TFE del Máster en Inteligencia Artificial.</p>
<h4>Proceso de Conversión</h4>
<p class="MsoNormal">El script </code>prepare_dataset.ipynb<code> implementa:</p>
<ol><li><b>Conversión PDF a imágenes</b>:</li></ol> - Biblioteca: PyMuPDF (fitz)
<p class="MsoNormal">- Resolución: 300 DPI</p>
<p class="MsoNormal">- Formato de salida: PNG</p>
<ol><li><b>Extracción de texto de referencia</b>:</li></ol> - Método: </code>page.get_text("dict")<code> de PyMuPDF
<p class="MsoNormal">- Preservación de estructura de líneas</p>
<p class="MsoNormal">- Tratamiento de texto vertical/marginal</p>
<p class="MsoNormal">- Normalización de espacios y saltos de línea</p>
<h4>Estructura del Dataset</h4>
</code>`<code>mermaid
<p class="MsoNormal">flowchart LR</p>
<p class="MsoNormal">dataset["dataset/"] --> d0["0/"]</p>
<p class="MsoNormal">d0 --> pdf["instrucciones.pdf"]</p>
<p class="MsoNormal">d0 --> img["img/"]</p>
<p class="MsoNormal">img --> img1["page_0001.png"]</p>
<p class="MsoNormal">img --> img2["page_0002.png"]</p>
<p class="MsoNormal">img --> imgN["..."]</p>
<p class="MsoNormal">d0 --> txt["txt/"]</p>
<p class="MsoNormal">txt --> txt1["page_0001.txt"]</p>
<p class="MsoNormal">txt --> txt2["page_0002.txt"]</p>
<p class="MsoNormal">txt --> txtN["..."]</p>
<p class="MsoNormal">dataset --> dots["..."]</p>
</code>`<code>
<h4>Clase ImageTextDataset</h4>
<p class="MsoNormal">Se implementó una clase Python para cargar pares imagen-texto:</p>
</code>`<code>python
<p class="MsoNormal">class ImageTextDataset:</p>
<p class="MsoNormal">def __init__(self, root):</p>
<p class="MsoNormal"># Carga pares (imagen, texto) de carpetas pareadas</p>
<p class="MsoNormal">def __getitem__(self, idx):</p>
<p class="MsoNormal"># Retorna (PIL.Image, str)</p>
</code>`<code>
<h3>3.3.3. Fase 2: Benchmark Comparativo</h3>
<h4>Modelos Evaluados</h4>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Modelo</th><th style="padding:5px;border:1px solid #ccc">Versión</th><th style="padding:5px;border:1px solid #ccc">Configuración</th></tr><tr><td style="padding:5px;border:1px solid #ccc">EasyOCR</td><td style="padding:5px;border:1px solid #ccc">-</td><td style="padding:5px;border:1px solid #ccc">Idiomas: ['es', 'en']</td></tr><tr><td style="padding:5px;border:1px solid #ccc">PaddleOCR</td><td style="padding:5px;border:1px solid #ccc">PP-OCRv5</td><td style="padding:5px;border:1px solid #ccc">Modelos server_det + server_rec</td></tr><tr><td style="padding:5px;border:1px solid #ccc">DocTR</td><td style="padding:5px;border:1px solid #ccc">-</td><td style="padding:5px;border:1px solid #ccc">db_resnet50 + sar_resnet31</td></tr></table>
<h4>Métricas de Evaluación</h4>
<p class="MsoNormal">Se utilizó la biblioteca </code>jiwer<code> para calcular:</p>
</code>`<code>python
<p class="MsoNormal">from jiwer import wer, cer</p>
<p class="MsoNormal">def evaluate_text(reference, prediction):</p>
<p class="MsoNormal">return {</p>
<p class="MsoNormal">'WER': wer(reference, prediction),</p>
<p class="MsoNormal">'CER': cer(reference, prediction)</p>
<p class="MsoNormal">}</p>
</code>`<code>
<h3>3.3.4. Fase 3: Espacio de Búsqueda</h3>
<h4>Hiperparámetros Seleccionados</h4>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Parámetro</th><th style="padding:5px;border:1px solid #ccc">Tipo</th><th style="padding:5px;border:1px solid #ccc">Rango/Valores</th><th style="padding:5px;border:1px solid #ccc">Descripción</th></tr><tr><td style="padding:5px;border:1px solid #ccc"></code>use_doc_orientation_classify<code></td><td style="padding:5px;border:1px solid #ccc">Booleano</td><td style="padding:5px;border:1px solid #ccc">[True, False]</td><td style="padding:5px;border:1px solid #ccc">Clasificación de orientación del documento</td></tr><tr><td style="padding:5px;border:1px solid #ccc"></code>use_doc_unwarping<code></td><td style="padding:5px;border:1px solid #ccc">Booleano</td><td style="padding:5px;border:1px solid #ccc">[True, False]</td><td style="padding:5px;border:1px solid #ccc">Corrección de deformación del documento</td></tr><tr><td style="padding:5px;border:1px solid #ccc"></code>textline_orientation<code></td><td style="padding:5px;border:1px solid #ccc">Booleano</td><td style="padding:5px;border:1px solid #ccc">[True, False]</td><td style="padding:5px;border:1px solid #ccc">Clasificación de orientación de línea de texto</td></tr><tr><td style="padding:5px;border:1px solid #ccc"></code>text_det_thresh<code></td><td style="padding:5px;border:1px solid #ccc">Continuo</td><td style="padding:5px;border:1px solid #ccc">[0.0, 0.7]</td><td style="padding:5px;border:1px solid #ccc">Umbral de detección de píxeles de texto</td></tr><tr><td style="padding:5px;border:1px solid #ccc"></code>text_det_box_thresh<code></td><td style="padding:5px;border:1px solid #ccc">Continuo</td><td style="padding:5px;border:1px solid #ccc">[0.0, 0.7]</td><td style="padding:5px;border:1px solid #ccc">Umbral de caja de detección</td></tr><tr><td style="padding:5px;border:1px solid #ccc"></code>text_det_unclip_ratio<code></td><td style="padding:5px;border:1px solid #ccc">Fijo</td><td style="padding:5px;border:1px solid #ccc">0.0</td><td style="padding:5px;border:1px solid #ccc">Coeficiente de expansión (fijado)</td></tr><tr><td style="padding:5px;border:1px solid #ccc"></code>text_rec_score_thresh<code></td><td style="padding:5px;border:1px solid #ccc">Continuo</td><td style="padding:5px;border:1px solid #ccc">[0.0, 0.7]</td><td style="padding:5px;border:1px solid #ccc">Umbral de confianza de reconocimiento</td></tr></table>
<h4>Configuración de Ray Tune</h4>
</code>`<code>python
<p class="MsoNormal">from ray import tune</p>
<p class="MsoNormal">from ray.tune.search.optuna import OptunaSearch</p>
<p class="MsoNormal">search_space = {</p>
<p class="MsoNormal">"use_doc_orientation_classify": tune.choice([True, False]),</p>
<p class="MsoNormal">"use_doc_unwarping": tune.choice([True, False]),</p>
<p class="MsoNormal">"textline_orientation": tune.choice([True, False]),</p>
<p class="MsoNormal">"text_det_thresh": tune.uniform(0.0, 0.7),</p>
<p class="MsoNormal">"text_det_box_thresh": tune.uniform(0.0, 0.7),</p>
<p class="MsoNormal">"text_det_unclip_ratio": tune.choice([0.0]),</p>
<p class="MsoNormal">"text_rec_score_thresh": tune.uniform(0.0, 0.7),</p>
<p class="MsoNormal">}</p>
<p class="MsoNormal">tuner = tune.Tuner(</p>
<p class="MsoNormal">trainable_paddle_ocr,</p>
<p class="MsoNormal">tune_config=tune.TuneConfig(</p>
<p class="MsoNormal">metric="CER",</p>
<p class="MsoNormal">mode="min",</p>
<p class="MsoNormal">search_alg=OptunaSearch(),</p>
<p class="MsoNormal">num_samples=64,</p>
<p class="MsoNormal">max_concurrent_trials=2</p>
<p class="MsoNormal">)</p>
<p class="MsoNormal">)</p>
</code>`<code>
<h3>3.3.5. Fase 4: Ejecución de Optimización</h3>
<h4>Arquitectura de Ejecución</h4>
<p class="MsoNormal">Debido a incompatibilidades entre Ray y PaddleOCR en el mismo proceso, se implementó una arquitectura basada en subprocesos:</p>
</code>`<code>mermaid
<p class="MsoNormal">flowchart LR</p>
<p class="MsoNormal">A["Ray Tune (proceso principal)"]</p>
<p class="MsoNormal">A --> B["Subprocess 1: paddle_ocr_tuning.py --config"]</p>
<p class="MsoNormal">B --> B_out["Retorna JSON con métricas"]</p>
<p class="MsoNormal">A --> C["Subprocess 2: paddle_ocr_tuning.py --config"]</p>
<p class="MsoNormal">C --> C_out["Retorna JSON con métricas"]</p>
</code>`<code>
<h4>Script de Evaluación (paddle_ocr_tuning.py)</h4>
<p class="MsoNormal">El script recibe hiperparámetros por línea de comandos:</p>
</code>`<code>bash
<p class="MsoNormal">python paddle_ocr_tuning.py \</p>
<p class="MsoNormal">--pdf-folder ./dataset \</p>
<p class="MsoNormal">--textline-orientation True \</p>
<p class="MsoNormal">--text-det-box-thresh 0.5 \</p>
<p class="MsoNormal">--text-det-thresh 0.4 \</p>
<p class="MsoNormal">--text-rec-score-thresh 0.6</p>
</code>`<code>
<p class="MsoNormal">Y retorna métricas en formato JSON:</p>
</code>`<code>json
{
<p class="MsoNormal">"CER": 0.0125,</p>
<p class="MsoNormal">"WER": 0.1040,</p>
<p class="MsoNormal">"TIME": 331.09,</p>
<p class="MsoNormal">"PAGES": 5,</p>
<p class="MsoNormal">"TIME_PER_PAGE": 66.12</p>
<p class="MsoNormal">}</p>
</code>`<code>
<h3>3.3.6. Fase 5: Validación</h3>
<h4>Protocolo de Validación</h4>
<ol><li><b>Baseline</b>: Ejecución con configuración por defecto de PaddleOCR</li><li><b>Optimizado</b>: Ejecución con mejor configuración encontrada</li><li><b>Comparación</b>: Evaluación sobre las 24 páginas del dataset completo</li><li><b>Métricas reportadas</b>: CER, WER, tiempo de procesamiento</li></ol>
<h3>3.3.7. Entorno de Ejecución</h3>
<h4>Hardware</h4>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Componente</th><th style="padding:5px;border:1px solid #ccc">Especificación</th></tr><tr><td style="padding:5px;border:1px solid #ccc">CPU</td><td style="padding:5px;border:1px solid #ccc">Intel Core (especificar modelo)</td></tr><tr><td style="padding:5px;border:1px solid #ccc">RAM</td><td style="padding:5px;border:1px solid #ccc">16 GB</td></tr><tr><td style="padding:5px;border:1px solid #ccc">GPU</td><td style="padding:5px;border:1px solid #ccc">No disponible (ejecución en CPU)</td></tr><tr><td style="padding:5px;border:1px solid #ccc">Almacenamiento</td><td style="padding:5px;border:1px solid #ccc">SSD</td></tr></table>
<h4>Software</h4>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Componente</th><th style="padding:5px;border:1px solid #ccc">Versión</th></tr><tr><td style="padding:5px;border:1px solid #ccc">Sistema Operativo</td><td style="padding:5px;border:1px solid #ccc">Windows 10/11</td></tr><tr><td style="padding:5px;border:1px solid #ccc">Python</td><td style="padding:5px;border:1px solid #ccc">3.11.9</td></tr><tr><td style="padding:5px;border:1px solid #ccc">PaddleOCR</td><td style="padding:5px;border:1px solid #ccc">3.3.2</td></tr><tr><td style="padding:5px;border:1px solid #ccc">PaddlePaddle</td><td style="padding:5px;border:1px solid #ccc">3.2.2</td></tr><tr><td style="padding:5px;border:1px solid #ccc">Ray</td><td style="padding:5px;border:1px solid #ccc">2.52.1</td></tr><tr><td style="padding:5px;border:1px solid #ccc">Optuna</td><td style="padding:5px;border:1px solid #ccc">4.6.0</td></tr></table>
<h3>3.3.8. Limitaciones Metodológicas</h3>
<ol><li><b>Tamaño del dataset</b>: El dataset contiene 24 páginas de un único tipo de documento. Resultados pueden no generalizar a otros formatos.</li></ol>
<ol><li><b>Ejecución en CPU</b>: Los tiempos de procesamiento (~70s/página) serían significativamente menores con GPU.</li></ol>
<ol><li><b>Ground truth imperfecto</b>: El texto de referencia extraído de PDF puede contener errores en documentos con layouts complejos.</li></ol>
<ol><li><b>Parámetro fijo</b>: </code>text_det_unclip_ratio` quedó fijado en 0.0 durante todo el experimento por decisión de diseño inicial.</li></ol>
<h2>3.4. Resumen del capítulo</h2>
<p class="MsoNormal">Este capítulo ha establecido:</p>
<ol><li>Un objetivo general SMART: alcanzar CER < 2% mediante optimización de hiperparámetros</li><li>Cinco objetivos específicos medibles y alcanzables</li><li>Una metodología experimental en cinco fases claramente definidas</li><li>El espacio de búsqueda de hiperparámetros y la configuración de Ray Tune</li><li>Las limitaciones reconocidas del enfoque</li></ol>
<p class="MsoNormal">El siguiente capítulo presenta el desarrollo específico de la contribución, incluyendo el benchmark comparativo de soluciones OCR, la optimización de hiperparámetros y el análisis de resultados.</p></div>
<div class="chapter">
<h1>4. Desarrollo específico de la contribución</h1>
<p class="MsoNormal">Este capítulo presenta el desarrollo completo del estudio comparativo y la optimización de hiperparámetros de sistemas OCR. Se estructura según el tipo de trabajo "Comparativa de soluciones" establecido por las instrucciones de UNIR: planteamiento de la comparativa, desarrollo de la comparativa, y discusión y análisis de resultados.</p>
<h2>4.1. Planteamiento de la comparativa</h2>
<h3>4.1.1. Introducción</h3>
<p class="MsoNormal">Esta sección presenta los resultados del estudio comparativo realizado entre tres soluciones OCR de código abierto: EasyOCR, PaddleOCR y DocTR. Los experimentos fueron documentados en el notebook <code>ocr_benchmark_notebook.ipynb</code> del repositorio. El objetivo es identificar el modelo base más prometedor para la posterior fase de optimización de hiperparámetros.</p>
<h3>4.1.2. Configuración del Experimento</h3>
<h4>Dataset de Evaluación</h4>
<p class="MsoNormal">Se utilizó el documento "Instrucciones para la redacción y elaboración del TFE" del Máster Universitario en Inteligencia Artificial de UNIR, ubicado en la carpeta <code>instructions/</code>.</p>
<b>Tabla 3.</b> <i>Características del dataset de evaluación.</i>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Característica</th><th style="padding:5px;border:1px solid #ccc">Valor</th></tr><tr><td style="padding:5px;border:1px solid #ccc">Número de páginas evaluadas</td><td style="padding:5px;border:1px solid #ccc">5 (páginas 1-5 en benchmark inicial)</td></tr><tr><td style="padding:5px;border:1px solid #ccc">Formato</td><td style="padding:5px;border:1px solid #ccc">PDF digital (no escaneado)</td></tr><tr><td style="padding:5px;border:1px solid #ccc">Idioma</td><td style="padding:5px;border:1px solid #ccc">Español</td></tr><tr><td style="padding:5px;border:1px solid #ccc">Resolución de conversión</td><td style="padding:5px;border:1px solid #ccc">300 DPI</td></tr></table>
<i>Fuente: Elaboración propia.</i>
<h4>Configuración de los Modelos</h4>
<p class="MsoNormal">Según el código en <code>ocr_benchmark_notebook.ipynb</code>:</p>
<b>EasyOCR</b>:
<p class="MsoNormal">``<code>python</p>
<p class="MsoNormal">easyocr_reader = easyocr.Reader(['es', 'en']) # Spanish and English</p>
</code>`<code>
<b>PaddleOCR (PP-OCRv5)</b>:
</code>`<code>python
<p class="MsoNormal">paddleocr_model = PaddleOCR(</p>
<p class="MsoNormal">text_detection_model_name="PP-OCRv5_server_det",</p>
<p class="MsoNormal">text_recognition_model_name="PP-OCRv5_server_rec",</p>
<p class="MsoNormal">use_doc_orientation_classify=False,</p>
<p class="MsoNormal">use_doc_unwarping=False,</p>
<p class="MsoNormal">use_textline_orientation=True,</p>
<p class="MsoNormal">)</p>
</code>`<code>
<p class="MsoNormal">Versión utilizada: PaddleOCR 3.2.0 (según output del notebook)</p>
<b>DocTR</b>:
</code>`<code>python
<p class="MsoNormal">doctr_model = ocr_predictor(det_arch="db_resnet50", reco_arch="sar_resnet31", pretrained=True)</p>
</code>`<code>
<h4>Métricas de Evaluación</h4>
<p class="MsoNormal">Se utilizó la biblioteca </code>jiwer<code> para calcular CER y WER:</p>
</code>`<code>python
<p class="MsoNormal">from jiwer import wer, cer</p>
<p class="MsoNormal">def evaluate_text(reference, prediction):</p>
<p class="MsoNormal">return {'WER': wer(reference, prediction), 'CER': cer(reference, prediction)}</p>
</code>`<code>
<h3>4.1.3. Resultados del Benchmark</h3>
<h4>Resultados de PaddleOCR (Datos del CSV)</h4>
<p class="MsoNormal">Del archivo </code>results/ai_ocr_benchmark_finetune_results_20251206_113206.csv<code>, se obtienen los siguientes resultados de PaddleOCR para las páginas 5-9 del documento:</p>
<b>Tabla 4.</b> <i>Resultados de PaddleOCR por página (benchmark inicial).</i>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Página</th><th style="padding:5px;border:1px solid #ccc">WER</th><th style="padding:5px;border:1px solid #ccc">CER</th></tr><tr><td style="padding:5px;border:1px solid #ccc">5</td><td style="padding:5px;border:1px solid #ccc">12.16%</td><td style="padding:5px;border:1px solid #ccc">6.33%</td></tr><tr><td style="padding:5px;border:1px solid #ccc">6</td><td style="padding:5px;border:1px solid #ccc">12.81%</td><td style="padding:5px;border:1px solid #ccc">6.40%</td></tr><tr><td style="padding:5px;border:1px solid #ccc">7</td><td style="padding:5px;border:1px solid #ccc">11.06%</td><td style="padding:5px;border:1px solid #ccc">6.24%</td></tr><tr><td style="padding:5px;border:1px solid #ccc">8</td><td style="padding:5px;border:1px solid #ccc">8.13%</td><td style="padding:5px;border:1px solid #ccc">1.54%</td></tr><tr><td style="padding:5px;border:1px solid #ccc">9</td><td style="padding:5px;border:1px solid #ccc">10.61%</td><td style="padding:5px;border:1px solid #ccc">5.58%</td></tr></table>
<i>Fuente: </code>results/ai_ocr_benchmark_finetune_results_20251206_113206.csv<code>.</i>
<b>Promedio PaddleOCR (páginas 5-9):</b>
<ul><li>CER medio: ~5.22%</li><li>WER medio: ~10.95%</li></ul>
<h4>Comparativa de Modelos</h4>
<p class="MsoNormal">Según la documentación del notebook </code>ocr_benchmark_notebook.ipynb<code>, los tres modelos evaluados representan diferentes paradigmas de OCR:</p>
<b>Tabla 5.</b> <i>Comparativa de arquitecturas OCR evaluadas.</i>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Modelo</th><th style="padding:5px;border:1px solid #ccc">Tipo</th><th style="padding:5px;border:1px solid #ccc">Componentes</th><th style="padding:5px;border:1px solid #ccc">Fortalezas Clave</th></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>EasyOCR</b></td><td style="padding:5px;border:1px solid #ccc">End-to-end (det + rec)</td><td style="padding:5px;border:1px solid #ccc">DB + CRNN/Transformer</td><td style="padding:5px;border:1px solid #ccc">Ligero, fácil de usar, multilingüe</td></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>PaddleOCR (PP-OCR)</b></td><td style="padding:5px;border:1px solid #ccc">End-to-end (det + rec + cls)</td><td style="padding:5px;border:1px solid #ccc">DB + SRN/CRNN</td><td style="padding:5px;border:1px solid #ccc">Soporte multilingüe robusto, pipeline configurable</td></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>DocTR</b></td><td style="padding:5px;border:1px solid #ccc">End-to-end (det + rec)</td><td style="padding:5px;border:1px solid #ccc">DB/LinkNet + CRNN/SAR/VitSTR</td><td style="padding:5px;border:1px solid #ccc">Orientado a investigación, API limpia</td></tr></table>
<i>Fuente: Documentación oficial de cada herramienta (JaidedAI, 2020; PaddlePaddle, 2024; Mindee, 2021).</i>
<h4>Ejemplo de Salida OCR</h4>
<p class="MsoNormal">Del archivo CSV, un ejemplo de predicción de PaddleOCR para la página 8:</p>
<blockquote style="margin-left:2cm;font-style:italic">"Escribe siempre al menos un párrafo de introducción en cada capítulo o apartado, explicando de qué vas a tratar en esa sección. Evita que aparezcan dos encabezados de nivel consecutivos sin ningún texto entre medias. [...] En esta titulacióon se cita de acuerdo con la normativa Apa."</blockquote>
<b>Errores observados en este ejemplo:</b>
<ul><li></code>titulacióon<code> en lugar de </code>titulación<code> (carácter duplicado)</li><li></code>Apa<code> en lugar de </code>APA<code> (capitalización)</li></ul>
<h3>4.1.4. Justificación de la Selección de PaddleOCR</h3>
<h4>Criterios de Selección</h4>
<p class="MsoNormal">Basándose en los resultados obtenidos y la documentación del benchmark:</p>
<ol><li><b>Rendimiento</b>: PaddleOCR obtuvo CER entre 1.54% y 6.40% en las páginas evaluadas</li><li><b>Configurabilidad</b>: PaddleOCR ofrece múltiples hiperparámetros ajustables:</li></ol> - Umbrales de detección (</code>text_det_thresh<code>, </code>text_det_box_thresh<code>)
<p class="MsoNormal">- Umbral de reconocimiento (</code>text_rec_score_thresh<code>)</p>
<p class="MsoNormal">- Componentes opcionales (</code>use_textline_orientation<code>, </code>use_doc_orientation_classify<code>, </code>use_doc_unwarping<code>)</p>
<ol><li><b>Documentación oficial</b>: [PaddleOCR Documentation](https://www.paddleocr.ai/v3.0.0/en/version3.x/pipeline_usage/OCR.html)</li></ol>
<h4>Decisión</h4>
<b>Se selecciona PaddleOCR (PP-OCRv5)</b> para la fase de optimización debido a:
<ul><li>Resultados iniciales prometedores (CER ~5%)</li><li>Alta configurabilidad de hiperparámetros de inferencia</li><li>Pipeline modular que permite experimentación</li></ul>
<h3>4.1.5. Limitaciones del Benchmark</h3>
<ol><li><b>Tamaño reducido</b>: Solo 5 páginas evaluadas en el benchmark comparativo inicial</li><li><b>Único tipo de documento</b>: Documentos académicos de UNIR únicamente</li><li><b>Ground truth</b>: El texto de referencia se extrajo automáticamente del PDF, lo cual puede introducir errores en layouts complejos</li></ol>
<h3>4.1.6. Resumen de la Sección</h3>
<p class="MsoNormal">Esta sección ha presentado:</p>
<ol><li>La configuración del benchmark según </code>ocr_benchmark_notebook.ipynb<code></li><li>Los resultados cuantitativos de PaddleOCR del archivo CSV de resultados</li><li>La justificación de la selección de PaddleOCR para optimización</li></ol>
<b>Fuentes de datos utilizadas:</b>
<ul><li></code>ocr_benchmark_notebook.ipynb<code>: Código del benchmark</li><li></code>results/ai_ocr_benchmark_finetune_results_20251206_113206.csv<code>: Resultados numéricos</li><li>Documentación oficial de PaddleOCR</li></ul>
<h2>4.2. Desarrollo de la comparativa: Optimización de hiperparámetros</h2>
<h3>4.2.1. Introducción</h3>
<p class="MsoNormal">Esta sección describe el proceso de optimización de hiperparámetros de PaddleOCR utilizando Ray Tune con el algoritmo de búsqueda Optuna. Los experimentos fueron implementados en el notebook </code>src/paddle_ocr_fine_tune_unir_raytune.ipynb<code> y los resultados se almacenaron en </code>src/raytune_paddle_subproc_results_20251207_192320.csv<code>.</p>
<h3>4.2.2. Configuración del Experimento</h3>
<h4>Entorno de Ejecución</h4>
<p class="MsoNormal">Según los outputs del notebook:</p>
<b>Tabla 6.</b> <i>Entorno de ejecución del experimento.</i>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Componente</th><th style="padding:5px;border:1px solid #ccc">Versión/Especificación</th></tr><tr><td style="padding:5px;border:1px solid #ccc">Python</td><td style="padding:5px;border:1px solid #ccc">3.11.9</td></tr><tr><td style="padding:5px;border:1px solid #ccc">PaddlePaddle</td><td style="padding:5px;border:1px solid #ccc">3.2.2</td></tr><tr><td style="padding:5px;border:1px solid #ccc">PaddleOCR</td><td style="padding:5px;border:1px solid #ccc">3.3.2</td></tr><tr><td style="padding:5px;border:1px solid #ccc">Ray</td><td style="padding:5px;border:1px solid #ccc">2.52.1</td></tr><tr><td style="padding:5px;border:1px solid #ccc">GPU</td><td style="padding:5px;border:1px solid #ccc">No disponible (CPU only)</td></tr></table>
<i>Fuente: Outputs del notebook </code>src/paddle_ocr_fine_tune_unir_raytune.ipynb<code>.</i>
<h4>Dataset</h4>
<p class="MsoNormal">Se utilizó un dataset estructurado en </code>src/dataset/<code> creado mediante el notebook </code>src/prepare_dataset.ipynb<code>:</p>
<ul><li><b>Estructura</b>: Carpetas con subcarpetas </code>img/<code> y </code>txt/<code> pareadas</li><li><b>Páginas evaluadas por trial</b>: 5 (páginas 5-10 del documento)</li><li><b>Gestión de datos</b>: Clase </code>ImageTextDataset<code> en </code>src/dataset_manager.py<code></li></ul>
<h4>Espacio de Búsqueda</h4>
<p class="MsoNormal">Según el código del notebook, se definió el siguiente espacio de búsqueda:</p>
</code>`<code>python
<p class="MsoNormal">search_space = {</p>
<p class="MsoNormal">"use_doc_orientation_classify": tune.choice([True, False]),</p>
<p class="MsoNormal">"use_doc_unwarping": tune.choice([True, False]),</p>
<p class="MsoNormal">"textline_orientation": tune.choice([True, False]),</p>
<p class="MsoNormal">"text_det_thresh": tune.uniform(0.0, 0.7),</p>
<p class="MsoNormal">"text_det_box_thresh": tune.uniform(0.0, 0.7),</p>
<p class="MsoNormal">"text_det_unclip_ratio": tune.choice([0.0]), # Fijado</p>
<p class="MsoNormal">"text_rec_score_thresh": tune.uniform(0.0, 0.7),</p>
<p class="MsoNormal">}</p>
</code>`<code>
<b>Descripción de parámetros</b> (según documentación de PaddleOCR):
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Parámetro</th><th style="padding:5px;border:1px solid #ccc">Descripción</th></tr><tr><td style="padding:5px;border:1px solid #ccc"></code>use_doc_orientation_classify<code></td><td style="padding:5px;border:1px solid #ccc">Clasificación de orientación del documento</td></tr><tr><td style="padding:5px;border:1px solid #ccc"></code>use_doc_unwarping<code></td><td style="padding:5px;border:1px solid #ccc">Corrección de deformación del documento</td></tr><tr><td style="padding:5px;border:1px solid #ccc"></code>textline_orientation<code></td><td style="padding:5px;border:1px solid #ccc">Clasificación de orientación de línea de texto</td></tr><tr><td style="padding:5px;border:1px solid #ccc"></code>text_det_thresh<code></td><td style="padding:5px;border:1px solid #ccc">Umbral de detección de píxeles de texto</td></tr><tr><td style="padding:5px;border:1px solid #ccc"></code>text_det_box_thresh<code></td><td style="padding:5px;border:1px solid #ccc">Umbral de caja de detección</td></tr><tr><td style="padding:5px;border:1px solid #ccc"></code>text_det_unclip_ratio<code></td><td style="padding:5px;border:1px solid #ccc">Coeficiente de expansión (fijado en 0.0)</td></tr><tr><td style="padding:5px;border:1px solid #ccc"></code>text_rec_score_thresh<code></td><td style="padding:5px;border:1px solid #ccc">Umbral de confianza de reconocimiento</td></tr></table>
<h4>Configuración de Ray Tune</h4>
</code>`<code>python
<p class="MsoNormal">tuner = tune.Tuner(</p>
<p class="MsoNormal">trainable_paddle_ocr,</p>
<p class="MsoNormal">tune_config=tune.TuneConfig(</p>
<p class="MsoNormal">metric="CER",</p>
<p class="MsoNormal">mode="min",</p>
<p class="MsoNormal">search_alg=OptunaSearch(),</p>
<p class="MsoNormal">num_samples=64,</p>
<p class="MsoNormal">max_concurrent_trials=2</p>
<p class="MsoNormal">),</p>
<p class="MsoNormal">run_config=air.RunConfig(verbose=2, log_to_file=False),</p>
<p class="MsoNormal">param_space=search_space</p>
<p class="MsoNormal">)</p>
</code>`<code>
<ul><li><b>Métrica objetivo</b>: CER (minimizar)</li><li><b>Algoritmo de búsqueda</b>: Optuna (TPE - Tree-structured Parzen Estimator)</li><li><b>Número de trials</b>: 64</li><li><b>Trials concurrentes</b>: 2</li></ul>
<h3>4.2.3. Resultados de la Optimización</h3>
<h4>Estadísticas Descriptivas</h4>
<p class="MsoNormal">Del archivo CSV de resultados (</code>raytune_paddle_subproc_results_20251207_192320.csv<code>):</p>
<b>Tabla 7.</b> <i>Estadísticas descriptivas de los 64 trials de Ray Tune.</i>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Estadística</th><th style="padding:5px;border:1px solid #ccc">CER</th><th style="padding:5px;border:1px solid #ccc">WER</th><th style="padding:5px;border:1px solid #ccc">Tiempo (s)</th><th style="padding:5px;border:1px solid #ccc">Tiempo/Página (s)</th></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>count</b></td><td style="padding:5px;border:1px solid #ccc">64</td><td style="padding:5px;border:1px solid #ccc">64</td><td style="padding:5px;border:1px solid #ccc">64</td><td style="padding:5px;border:1px solid #ccc">64</td></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>mean</b></td><td style="padding:5px;border:1px solid #ccc">5.25%</td><td style="padding:5px;border:1px solid #ccc">14.28%</td><td style="padding:5px;border:1px solid #ccc">347.61</td><td style="padding:5px;border:1px solid #ccc">69.42</td></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>std</b></td><td style="padding:5px;border:1px solid #ccc">11.03%</td><td style="padding:5px;border:1px solid #ccc">10.75%</td><td style="padding:5px;border:1px solid #ccc">7.88</td><td style="padding:5px;border:1px solid #ccc">1.57</td></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>min</b></td><td style="padding:5px;border:1px solid #ccc">1.15%</td><td style="padding:5px;border:1px solid #ccc">9.89%</td><td style="padding:5px;border:1px solid #ccc">320.97</td><td style="padding:5px;border:1px solid #ccc">64.10</td></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>25%</b></td><td style="padding:5px;border:1px solid #ccc">1.20%</td><td style="padding:5px;border:1px solid #ccc">10.04%</td><td style="padding:5px;border:1px solid #ccc">344.24</td><td style="padding:5px;border:1px solid #ccc">68.76</td></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>50%</b></td><td style="padding:5px;border:1px solid #ccc">1.23%</td><td style="padding:5px;border:1px solid #ccc">10.20%</td><td style="padding:5px;border:1px solid #ccc">346.42</td><td style="padding:5px;border:1px solid #ccc">69.19</td></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>75%</b></td><td style="padding:5px;border:1px solid #ccc">4.03%</td><td style="padding:5px;border:1px solid #ccc">13.20%</td><td style="padding:5px;border:1px solid #ccc">350.14</td><td style="padding:5px;border:1px solid #ccc">69.93</td></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>max</b></td><td style="padding:5px;border:1px solid #ccc">51.61%</td><td style="padding:5px;border:1px solid #ccc">59.45%</td><td style="padding:5px;border:1px solid #ccc">368.57</td><td style="padding:5px;border:1px solid #ccc">73.63</td></tr></table>
<i>Fuente: </code>src/raytune_paddle_subproc_results_20251207_192320.csv<code>.</i>
<h4>Mejor Configuración Encontrada</h4>
<p class="MsoNormal">Según el análisis del notebook:</p>
</code>`<code>
<p class="MsoNormal">Best CER: 0.011535 (1.15%)</p>
<p class="MsoNormal">Best WER: 0.098902 (9.89%)</p>
<p class="MsoNormal">Configuración óptima:</p>
<p class="MsoNormal">textline_orientation: True</p>
<p class="MsoNormal">use_doc_orientation_classify: False</p>
<p class="MsoNormal">use_doc_unwarping: False</p>
<p class="MsoNormal">text_det_thresh: 0.4690</p>
<p class="MsoNormal">text_det_box_thresh: 0.5412</p>
<p class="MsoNormal">text_det_unclip_ratio: 0.0</p>
<p class="MsoNormal">text_rec_score_thresh: 0.6350</p>
</code>`<code>
<h4>Análisis de Correlación</h4>
<p class="MsoNormal">Correlación de Pearson entre parámetros y métricas de error (del notebook):</p>
<b>Correlación con CER:</b>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Parámetro</th><th style="padding:5px;border:1px solid #ccc">Correlación</th></tr><tr><td style="padding:5px;border:1px solid #ccc">CER</td><td style="padding:5px;border:1px solid #ccc">1.000</td></tr><tr><td style="padding:5px;border:1px solid #ccc">config/text_det_box_thresh</td><td style="padding:5px;border:1px solid #ccc">0.226</td></tr><tr><td style="padding:5px;border:1px solid #ccc">config/text_rec_score_thresh</td><td style="padding:5px;border:1px solid #ccc">-0.161</td></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>config/text_det_thresh</b></td><td style="padding:5px;border:1px solid #ccc"><b>-0.523</b></td></tr><tr><td style="padding:5px;border:1px solid #ccc">config/text_det_unclip_ratio</td><td style="padding:5px;border:1px solid #ccc">NaN</td></tr></table>
<b>Correlación con WER:</b>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Parámetro</th><th style="padding:5px;border:1px solid #ccc">Correlación</th></tr><tr><td style="padding:5px;border:1px solid #ccc">WER</td><td style="padding:5px;border:1px solid #ccc">1.000</td></tr><tr><td style="padding:5px;border:1px solid #ccc">config/text_det_box_thresh</td><td style="padding:5px;border:1px solid #ccc">0.227</td></tr><tr><td style="padding:5px;border:1px solid #ccc">config/text_rec_score_thresh</td><td style="padding:5px;border:1px solid #ccc">-0.173</td></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>config/text_det_thresh</b></td><td style="padding:5px;border:1px solid #ccc"><b>-0.521</b></td></tr><tr><td style="padding:5px;border:1px solid #ccc">config/text_det_unclip_ratio</td><td style="padding:5px;border:1px solid #ccc">NaN</td></tr></table>
<b>Hallazgo clave</b>: El parámetro </code>text_det_thresh<code> muestra la correlación más fuerte (-0.52), indicando que valores más altos de este umbral tienden a reducir el error.
<h4>Impacto del Parámetro textline_orientation</h4>
<p class="MsoNormal">Según el análisis del notebook, este parámetro booleano tiene el mayor impacto:</p>
<b>Tabla 8.</b> <i>Impacto del parámetro textline_orientation en las métricas de error.</i>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">textline_orientation</th><th style="padding:5px;border:1px solid #ccc">CER Medio</th><th style="padding:5px;border:1px solid #ccc">WER Medio</th></tr><tr><td style="padding:5px;border:1px solid #ccc">True</td><td style="padding:5px;border:1px solid #ccc">~3.76%</td><td style="padding:5px;border:1px solid #ccc">~12.73%</td></tr><tr><td style="padding:5px;border:1px solid #ccc">False</td><td style="padding:5px;border:1px solid #ccc">~12.40%</td><td style="padding:5px;border:1px solid #ccc">~21.71%</td></tr></table>
<i>Fuente: Análisis del notebook </code>src/paddle_ocr_fine_tune_unir_raytune.ipynb<code>.</i>
<b>Interpretación</b>:
<p class="MsoNormal">El CER medio es ~3.3x menor con </code>textline_orientation=True<code> (3.76% vs 12.40%). Además, la varianza es mucho menor, lo que indica resultados más consistentes. Para documentos en español con layouts mixtos (tablas, encabezados, direcciones), la clasificación de orientación ayuda a PaddleOCR a ordenar correctamente las líneas de texto.</p>
</code>`<code>mermaid
<p class="MsoNormal">%%{init: {'theme': 'base', 'themeVariables': { 'primaryColor': '#0098CD'}}}%%</p>
<p class="MsoNormal">xychart-beta</p>
<p class="MsoNormal">title "Impacto de textline_orientation en CER"</p>
<p class="MsoNormal">x-axis ["textline_orientation=False", "textline_orientation=True"]</p>
<p class="MsoNormal">y-axis "CER (%)" 0 --> 15</p>
<p class="MsoNormal">bar [12.40, 3.76]</p>
</code>`<code>
<i>Figura 3. Comparación del CER medio según el valor del parámetro textline_orientation.</i>
<h4>Análisis de Fallos</h4>
<p class="MsoNormal">Los trials con CER muy alto (>40%) se produjeron cuando:</p>
<ul><li></code>text_det_thresh<code> < 0.1 (valores muy bajos)</li><li></code>textline_orientation = False<code></li></ul>
<p class="MsoNormal">Ejemplo de trial con fallo catastrófico:</p>
<ul><li>CER: 51.61%</li><li>WER: 59.45%</li><li>Configuración: </code>text_det_thresh=0.017<code>, </code>textline_orientation=True<code></li></ul>
<h3>4.2.4. Comparación Baseline vs Optimizado</h3>
<h4>Resultados sobre Dataset Completo (24 páginas)</h4>
<p class="MsoNormal">Del análisis final del notebook ejecutando sobre las 24 páginas:</p>
<b>Tabla 9.</b> <i>Comparación baseline vs configuración optimizada (24 páginas).</i>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Modelo</th><th style="padding:5px;border:1px solid #ccc">CER</th><th style="padding:5px;border:1px solid #ccc">WER</th></tr><tr><td style="padding:5px;border:1px solid #ccc">PaddleOCR (Baseline)</td><td style="padding:5px;border:1px solid #ccc">7.78%</td><td style="padding:5px;border:1px solid #ccc">14.94%</td></tr><tr><td style="padding:5px;border:1px solid #ccc">PaddleOCR-HyperAdjust</td><td style="padding:5px;border:1px solid #ccc">1.49%</td><td style="padding:5px;border:1px solid #ccc">7.62%</td></tr></table>
<i>Fuente: Ejecución final en notebook </code>src/paddle_ocr_fine_tune_unir_raytune.ipynb<code>.</i>
<h4>Métricas de Mejora</h4>
<b>Tabla 10.</b> <i>Análisis de la mejora obtenida.</i>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Métrica</th><th style="padding:5px;border:1px solid #ccc">Baseline</th><th style="padding:5px;border:1px solid #ccc">Optimizado</th><th style="padding:5px;border:1px solid #ccc">Mejora Absoluta</th><th style="padding:5px;border:1px solid #ccc">Reducción Error</th></tr><tr><td style="padding:5px;border:1px solid #ccc">CER</td><td style="padding:5px;border:1px solid #ccc">7.78%</td><td style="padding:5px;border:1px solid #ccc">1.49%</td><td style="padding:5px;border:1px solid #ccc">-6.29 pp</td><td style="padding:5px;border:1px solid #ccc">80.9%</td></tr><tr><td style="padding:5px;border:1px solid #ccc">WER</td><td style="padding:5px;border:1px solid #ccc">14.94%</td><td style="padding:5px;border:1px solid #ccc">7.62%</td><td style="padding:5px;border:1px solid #ccc">-7.32 pp</td><td style="padding:5px;border:1px solid #ccc">49.0%</td></tr></table>
<i>Fuente: Elaboración propia a partir de los resultados experimentales.</i>
<h4>Interpretación (del notebook)</h4>
<blockquote style="margin-left:2cm;font-style:italic">"La optimización de hiperparámetros mejoró la precisión de caracteres de 92.2% a 98.5%, una ganancia de 6.3 puntos porcentuales. Aunque el baseline ya ofrecía resultados aceptables, la configuración optimizada reduce los errores residuales en un 80.9%."</blockquote>
</code>`<code>mermaid
<p class="MsoNormal">%%{init: {'theme': 'base'}}%%</p>
<p class="MsoNormal">xychart-beta</p>
<p class="MsoNormal">title "Comparación Baseline vs Optimizado (24 páginas)"</p>
<p class="MsoNormal">x-axis ["CER", "WER"]</p>
<p class="MsoNormal">y-axis "Tasa de error (%)" 0 --> 16</p>
<p class="MsoNormal">bar "Baseline" [7.78, 14.94]</p>
<p class="MsoNormal">bar "Optimizado" [1.49, 7.62]</p>
</code>`<code>
<i>Figura 4. Comparación de métricas de error entre configuración baseline y optimizada.</i>
<b>Impacto práctico</b>: En un documento de 10,000 caracteres:
<ul><li>Baseline: ~778 caracteres con error</li><li>Optimizado: ~149 caracteres con error</li><li>Diferencia: ~629 caracteres menos con errores</li></ul>
<h3>4.2.5. Tiempo de Ejecución</h3>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Métrica</th><th style="padding:5px;border:1px solid #ccc">Valor</th></tr><tr><td style="padding:5px;border:1px solid #ccc">Tiempo total del experimento</td><td style="padding:5px;border:1px solid #ccc">~6 horas (64 trials × ~6 min/trial)</td></tr><tr><td style="padding:5px;border:1px solid #ccc">Tiempo medio por trial</td><td style="padding:5px;border:1px solid #ccc">367.72 segundos</td></tr><tr><td style="padding:5px;border:1px solid #ccc">Tiempo medio por página</td><td style="padding:5px;border:1px solid #ccc">69.42 segundos</td></tr><tr><td style="padding:5px;border:1px solid #ccc">Total páginas procesadas</td><td style="padding:5px;border:1px solid #ccc">64 trials × 5 páginas = 320 evaluaciones</td></tr></table>
<h3>4.2.6. Resumen de la Sección</h3>
<p class="MsoNormal">Esta sección ha presentado:</p>
<ol><li><b>Configuración del experimento</b>: 64 trials con Ray Tune + Optuna sobre 7 hiperparámetros</li><li><b>Resultados estadísticos</b>: CER medio 5.25%, CER mínimo 1.15%</li><li><b>Hallazgos clave</b>:</li></ol> - </code>textline_orientation=True<code> es crítico (reduce CER ~70%)
<p class="MsoNormal">- </code>text_det_thresh<code> tiene correlación -0.52 con CER</p>
<p class="MsoNormal">- Valores bajos de </code>text_det_thresh<code> (<0.1) causan fallos catastróficos</p>
<ol><li><b>Mejora final</b>: CER reducido de 7.78% a 1.49% (reducción del 80.9%)</li></ol>
<b>Fuentes de datos:</b>
<ul><li></code>src/paddle_ocr_fine_tune_unir_raytune.ipynb<code>: Código del experimento</li><li></code>src/raytune_paddle_subproc_results_20251207_192320.csv<code>: Resultados de 64 trials</li><li></code>src/paddle_ocr_tuning.py<code>: Script de evaluación</li></ul>
<h2>4.3. Discusión y análisis de resultados</h2>
<h3>4.3.1. Introducción</h3>
<p class="MsoNormal">Esta sección presenta un análisis consolidado de los resultados obtenidos en las fases de benchmark comparativo y optimización de hiperparámetros. Se discuten las implicaciones prácticas y se evalúa el cumplimiento de los objetivos planteados.</p>
<h3>4.3.2. Resumen de Resultados</h3>
<h4>Resultados del Benchmark Comparativo</h4>
<p class="MsoNormal">Del archivo </code>results/ai_ocr_benchmark_finetune_results_20251206_113206.csv<code>, PaddleOCR con configuración inicial (</code>use_textline_orientation=True<code>) obtuvo los siguientes resultados en las páginas 5-9:</p>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Página</th><th style="padding:5px;border:1px solid #ccc">WER</th><th style="padding:5px;border:1px solid #ccc">CER</th></tr><tr><td style="padding:5px;border:1px solid #ccc">5</td><td style="padding:5px;border:1px solid #ccc">12.16%</td><td style="padding:5px;border:1px solid #ccc">6.33%</td></tr><tr><td style="padding:5px;border:1px solid #ccc">6</td><td style="padding:5px;border:1px solid #ccc">12.81%</td><td style="padding:5px;border:1px solid #ccc">6.40%</td></tr><tr><td style="padding:5px;border:1px solid #ccc">7</td><td style="padding:5px;border:1px solid #ccc">11.06%</td><td style="padding:5px;border:1px solid #ccc">6.24%</td></tr><tr><td style="padding:5px;border:1px solid #ccc">8</td><td style="padding:5px;border:1px solid #ccc">8.13%</td><td style="padding:5px;border:1px solid #ccc">1.54%</td></tr><tr><td style="padding:5px;border:1px solid #ccc">9</td><td style="padding:5px;border:1px solid #ccc">10.61%</td><td style="padding:5px;border:1px solid #ccc">5.58%</td></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>Promedio</b></td><td style="padding:5px;border:1px solid #ccc"><b>10.95%</b></td><td style="padding:5px;border:1px solid #ccc"><b>5.22%</b></td></tr></table>
<h4>Resultados de la Optimización con Ray Tune</h4>
<p class="MsoNormal">Del archivo </code>src/raytune_paddle_subproc_results_20251207_192320.csv<code> (64 trials):</p>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Métrica</th><th style="padding:5px;border:1px solid #ccc">Valor</th></tr><tr><td style="padding:5px;border:1px solid #ccc">CER mínimo</td><td style="padding:5px;border:1px solid #ccc">1.15%</td></tr><tr><td style="padding:5px;border:1px solid #ccc">CER medio</td><td style="padding:5px;border:1px solid #ccc">5.25%</td></tr><tr><td style="padding:5px;border:1px solid #ccc">CER máximo</td><td style="padding:5px;border:1px solid #ccc">51.61%</td></tr><tr><td style="padding:5px;border:1px solid #ccc">WER mínimo</td><td style="padding:5px;border:1px solid #ccc">9.89%</td></tr><tr><td style="padding:5px;border:1px solid #ccc">WER medio</td><td style="padding:5px;border:1px solid #ccc">14.28%</td></tr><tr><td style="padding:5px;border:1px solid #ccc">WER máximo</td><td style="padding:5px;border:1px solid #ccc">59.45%</td></tr></table>
<h4>Comparación Final (Dataset Completo - 24 páginas)</h4>
<p class="MsoNormal">Resultados del notebook </code>src/paddle_ocr_fine_tune_unir_raytune.ipynb<code>:</p>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Modelo</th><th style="padding:5px;border:1px solid #ccc">CER</th><th style="padding:5px;border:1px solid #ccc">Precisión Caracteres</th><th style="padding:5px;border:1px solid #ccc">WER</th><th style="padding:5px;border:1px solid #ccc">Precisión Palabras</th></tr><tr><td style="padding:5px;border:1px solid #ccc">PaddleOCR (Baseline)</td><td style="padding:5px;border:1px solid #ccc">7.78%</td><td style="padding:5px;border:1px solid #ccc">92.22%</td><td style="padding:5px;border:1px solid #ccc">14.94%</td><td style="padding:5px;border:1px solid #ccc">85.06%</td></tr><tr><td style="padding:5px;border:1px solid #ccc">PaddleOCR-HyperAdjust</td><td style="padding:5px;border:1px solid #ccc">1.49%</td><td style="padding:5px;border:1px solid #ccc">98.51%</td><td style="padding:5px;border:1px solid #ccc">7.62%</td><td style="padding:5px;border:1px solid #ccc">92.38%</td></tr></table>
<h3>4.3.3. Análisis de Resultados</h3>
<h4>Mejora Obtenida</h4>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Forma de Medición</th><th style="padding:5px;border:1px solid #ccc">Valor</th></tr><tr><td style="padding:5px;border:1px solid #ccc">Mejora en precisión de caracteres (absoluta)</td><td style="padding:5px;border:1px solid #ccc">+6.29 puntos porcentuales</td></tr><tr><td style="padding:5px;border:1px solid #ccc">Reducción del CER (relativa)</td><td style="padding:5px;border:1px solid #ccc">80.9%</td></tr><tr><td style="padding:5px;border:1px solid #ccc">Mejora en precisión de palabras (absoluta)</td><td style="padding:5px;border:1px solid #ccc">+7.32 puntos porcentuales</td></tr><tr><td style="padding:5px;border:1px solid #ccc">Reducción del WER (relativa)</td><td style="padding:5px;border:1px solid #ccc">49.0%</td></tr><tr><td style="padding:5px;border:1px solid #ccc">Precisión final de caracteres</td><td style="padding:5px;border:1px solid #ccc">98.51%</td></tr></table>
<h4>Impacto de Hiperparámetros Individuales</h4>
<b>Parámetro </code>textline_orientation<code></b>
<p class="MsoNormal">Este parámetro booleano demostró ser el más influyente:</p>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Valor</th><th style="padding:5px;border:1px solid #ccc">CER Medio</th><th style="padding:5px;border:1px solid #ccc">Impacto</th></tr><tr><td style="padding:5px;border:1px solid #ccc">True</td><td style="padding:5px;border:1px solid #ccc">~3.76%</td><td style="padding:5px;border:1px solid #ccc">Rendimiento óptimo</td></tr><tr><td style="padding:5px;border:1px solid #ccc">False</td><td style="padding:5px;border:1px solid #ccc">~12.40%</td><td style="padding:5px;border:1px solid #ccc">3.3x peor</td></tr></table>
<b>Reducción del CER</b>: 69.7% cuando se habilita la clasificación de orientación de línea.
<b>Parámetro </code>text_det_thresh<code></b>
<p class="MsoNormal">Correlación con CER: <b>-0.523</b> (la más fuerte de los parámetros continuos)</p>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Rango</th><th style="padding:5px;border:1px solid #ccc">Comportamiento</th></tr><tr><td style="padding:5px;border:1px solid #ccc">< 0.1</td><td style="padding:5px;border:1px solid #ccc">Fallos catastróficos (CER 40-50%)</td></tr><tr><td style="padding:5px;border:1px solid #ccc">0.3 - 0.6</td><td style="padding:5px;border:1px solid #ccc">Rendimiento óptimo</td></tr><tr><td style="padding:5px;border:1px solid #ccc">Valor óptimo</td><td style="padding:5px;border:1px solid #ccc">0.4690</td></tr></table>
<b>Parámetros con menor impacto</b>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Parámetro</th><th style="padding:5px;border:1px solid #ccc">Correlación con CER</th><th style="padding:5px;border:1px solid #ccc">Valor óptimo</th></tr><tr><td style="padding:5px;border:1px solid #ccc">text_det_box_thresh</td><td style="padding:5px;border:1px solid #ccc">+0.226</td><td style="padding:5px;border:1px solid #ccc">0.5412</td></tr><tr><td style="padding:5px;border:1px solid #ccc">text_rec_score_thresh</td><td style="padding:5px;border:1px solid #ccc">-0.161</td><td style="padding:5px;border:1px solid #ccc">0.6350</td></tr><tr><td style="padding:5px;border:1px solid #ccc">use_doc_orientation_classify</td><td style="padding:5px;border:1px solid #ccc">-</td><td style="padding:5px;border:1px solid #ccc">False</td></tr><tr><td style="padding:5px;border:1px solid #ccc">use_doc_unwarping</td><td style="padding:5px;border:1px solid #ccc">-</td><td style="padding:5px;border:1px solid #ccc">False</td></tr></table>
<h4>Configuración Óptima Final</h4>
</code>`<code>python
<p class="MsoNormal">config_optimizada = {</p>
<p class="MsoNormal">"textline_orientation": True, # CRÍTICO</p>
<p class="MsoNormal">"use_doc_orientation_classify": False,</p>
<p class="MsoNormal">"use_doc_unwarping": False,</p>
<p class="MsoNormal">"text_det_thresh": 0.4690, # Correlación -0.52</p>
<p class="MsoNormal">"text_det_box_thresh": 0.5412,</p>
<p class="MsoNormal">"text_det_unclip_ratio": 0.0,</p>
<p class="MsoNormal">"text_rec_score_thresh": 0.6350,</p>
<p class="MsoNormal">}</p>
</code>`<code>
<h3>4.3.4. Discusión</h3>
<h4>Hallazgos Principales</h4>
<ol><li><b>Importancia de la clasificación de orientación de línea</b>: El parámetro </code>textline_orientation=True<code> es el factor más determinante. Esto tiene sentido para documentos con layouts mixtos (tablas, encabezados, direcciones) donde el orden correcto de las líneas de texto es crucial.</li></ol>
<ol><li><b>Umbral de detección crítico</b>: El parámetro </code>text_det_thresh<code> presenta un umbral mínimo efectivo (~0.1). Valores inferiores generan demasiados falsos positivos en la detección, corrompiendo el reconocimiento posterior.</li></ol>
<ol><li><b>Componentes opcionales innecesarios</b>: Para documentos académicos digitales (no escaneados), los módulos de corrección de orientación de documento (</code>use_doc_orientation_classify<code>) y corrección de deformación (</code>use_doc_unwarping<code>) no aportan mejora e incluso pueden introducir overhead.</li></ol>
<h4>Interpretación de la Correlación Negativa</h4>
<p class="MsoNormal">La correlación negativa de </code>text_det_thresh<code> (-0.52) con el CER indica que:</p>
<ul><li>Umbrales más altos filtran detecciones de baja confianza</li><li>Esto reduce falsos positivos que generan texto erróneo</li><li>El reconocimiento es más preciso con menos regiones pero más confiables</li></ul>
<h4>Limitaciones de los Resultados</h4>
<ol><li><b>Generalización</b>: Los resultados se obtuvieron sobre documentos de un único tipo (instrucciones académicas UNIR). La configuración óptima puede variar para otros tipos de documentos.</li></ol>
<ol><li><b>Ground truth automático</b>: El texto de referencia se extrajo programáticamente del PDF. En layouts complejos, esto puede introducir errores en la evaluación.</li></ol>
<ol><li><b>Ejecución en CPU</b>: Los tiempos reportados (~69s/página) corresponden a ejecución en CPU. Con GPU, los tiempos serían significativamente menores.</li></ol>
<ol><li><b>Parámetro fijo</b>: </code>text_det_unclip_ratio<code> permaneció fijo en 0.0 durante todo el experimento por decisión de diseño.</li></ol>
<h4>Comparación con Objetivos</h4>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Objetivo</th><th style="padding:5px;border:1px solid #ccc">Meta</th><th style="padding:5px;border:1px solid #ccc">Resultado</th><th style="padding:5px;border:1px solid #ccc">Cumplimiento</th></tr><tr><td style="padding:5px;border:1px solid #ccc">OE1: Comparar soluciones OCR</td><td style="padding:5px;border:1px solid #ccc">Evaluar EasyOCR, PaddleOCR, DocTR</td><td style="padding:5px;border:1px solid #ccc">PaddleOCR seleccionado</td><td style="padding:5px;border:1px solid #ccc"></td></tr><tr><td style="padding:5px;border:1px solid #ccc">OE2: Preparar dataset</td><td style="padding:5px;border:1px solid #ccc">Construir dataset estructurado</td><td style="padding:5px;border:1px solid #ccc">Dataset de 24 páginas</td><td style="padding:5px;border:1px solid #ccc"></td></tr><tr><td style="padding:5px;border:1px solid #ccc">OE3: Identificar hiperparámetros críticos</td><td style="padding:5px;border:1px solid #ccc">Analizar correlaciones</td><td style="padding:5px;border:1px solid #ccc"></code>textline_orientation<code> y </code>text_det_thresh<code> identificados</td><td style="padding:5px;border:1px solid #ccc"></td></tr><tr><td style="padding:5px;border:1px solid #ccc">OE4: Optimizar con Ray Tune</td><td style="padding:5px;border:1px solid #ccc">Mínimo 50 configuraciones</td><td style="padding:5px;border:1px solid #ccc">64 trials ejecutados</td><td style="padding:5px;border:1px solid #ccc"></td></tr><tr><td style="padding:5px;border:1px solid #ccc">OE5: Validar configuración</td><td style="padding:5px;border:1px solid #ccc">Documentar mejora</td><td style="padding:5px;border:1px solid #ccc">CER 7.78% → 1.49%</td><td style="padding:5px;border:1px solid #ccc"></td></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>Objetivo General</b></td><td style="padding:5px;border:1px solid #ccc">CER < 2%</td><td style="padding:5px;border:1px solid #ccc">CER = 1.49%</td><td style="padding:5px;border:1px solid #ccc"></td></tr></table>
<h3>4.3.5. Implicaciones Prácticas</h3>
<h4>Recomendaciones de Configuración</h4>
<p class="MsoNormal">Para documentos académicos en español similares a los evaluados:</p>
<ol><li><b>Obligatorio</b>: </code>use_textline_orientation=True<code></li><li><b>Recomendado</b>: </code>text_det_thresh<code> entre 0.4 y 0.5</li><li><b>Opcional</b>: </code>text_det_box_thresh<code> ~0.5, </code>text_rec_score_thresh<code> >0.6</li><li><b>No recomendado</b>: Habilitar </code>use_doc_orientation_classify<code> o </code>use_doc_unwarping<code> para documentos digitales</li></ol>
<h4>Impacto Cuantitativo</h4>
<p class="MsoNormal">En un documento típico de 10,000 caracteres:</p>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Configuración</th><th style="padding:5px;border:1px solid #ccc">Errores estimados</th></tr><tr><td style="padding:5px;border:1px solid #ccc">Baseline</td><td style="padding:5px;border:1px solid #ccc">~778 caracteres</td></tr><tr><td style="padding:5px;border:1px solid #ccc">Optimizada</td><td style="padding:5px;border:1px solid #ccc">~149 caracteres</td></tr><tr><td style="padding:5px;border:1px solid #ccc"><b>Reducción</b></td><td style="padding:5px;border:1px solid #ccc"><b>629 caracteres menos con errores</b></td></tr></table>
<h4>Aplicabilidad</h4>
<p class="MsoNormal">Esta metodología de optimización es aplicable cuando:</p>
<ul><li>No se dispone de recursos GPU para fine-tuning</li><li>El modelo preentrenado ya tiene soporte para el idioma objetivo</li><li>Se busca mejorar rendimiento sin reentrenar</li></ul>
<h3>4.3.6. Resumen de la Sección</h3>
<p class="MsoNormal">Esta sección ha presentado:</p>
<ol><li>Los resultados consolidados del benchmark y la optimización</li><li>El análisis del impacto de cada hiperparámetro</li><li>La configuración óptima identificada</li><li>La discusión de limitaciones y aplicabilidad</li><li>El cumplimiento de los objetivos planteados</li></ol>
<b>Resultado principal</b>: Se logró reducir el CER del 7.78% al 1.49% (mejora del 80.9%) mediante optimización de hiperparámetros, cumpliendo el objetivo de alcanzar CER < 2%.
<b>Fuentes de datos:</b>
<ul><li></code>results/ai_ocr_benchmark_finetune_results_20251206_113206.csv<code></li><li></code>src/raytune_paddle_subproc_results_20251207_192320.csv<code></li><li></code>src/paddle_ocr_fine_tune_unir_raytune.ipynb`</li></ul></div>
<div class="chapter">
<h1>5. Conclusiones y trabajo futuro</h1>
<p class="MsoNormal">Este capítulo resume las principales conclusiones del trabajo, evalúa el grado de cumplimiento de los objetivos planteados y propone líneas de trabajo futuro que permitirían ampliar y profundizar los resultados obtenidos.</p>
<h2>5.1. Conclusiones</h2>
<h3>5.1.1. Conclusiones Generales</h3>
<p class="MsoNormal">Este Trabajo Fin de Máster ha demostrado que es posible mejorar significativamente el rendimiento de sistemas OCR preentrenados mediante optimización sistemática de hiperparámetros, sin requerir fine-tuning ni recursos GPU dedicados.</p>
<p class="MsoNormal">El objetivo principal del trabajo era alcanzar un CER inferior al 2% en documentos académicos en español. Los resultados obtenidos confirman el cumplimiento de este objetivo:</p>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Métrica</th><th style="padding:5px;border:1px solid #ccc">Objetivo</th><th style="padding:5px;border:1px solid #ccc">Resultado</th></tr><tr><td style="padding:5px;border:1px solid #ccc">CER</td><td style="padding:5px;border:1px solid #ccc">< 2%</td><td style="padding:5px;border:1px solid #ccc"><b>1.49%</b></td></tr></table>
<h3>5.1.2. Conclusiones Específicas</h3>
<b>Respecto a OE1 (Comparativa de soluciones OCR)</b>:
<ul><li>Se evaluaron tres soluciones OCR de código abierto: EasyOCR, PaddleOCR (PP-OCRv5) y DocTR</li><li>PaddleOCR demostró el mejor rendimiento base para documentos en español</li><li>La configurabilidad del pipeline de PaddleOCR lo hace idóneo para optimización</li></ul>
<b>Respecto a OE2 (Preparación del dataset)</b>:
<ul><li>Se construyó un dataset estructurado con 24 páginas de documentos académicos</li><li>La clase <code>ImageTextDataset</code> facilita la carga de pares imagen-texto</li><li>El ground truth se extrajo automáticamente del PDF mediante PyMuPDF</li></ul>
<b>Respecto a OE3 (Identificación de hiperparámetros críticos)</b>:
<ul><li>El parámetro <code>textline_orientation</code> es el más influyente: reduce el CER en un 69.7% cuando está habilitado</li><li>El umbral <code>text_det_thresh</code> presenta la correlación más fuerte (-0.52) con el CER</li><li>Los parámetros de corrección de documento (<code>use_doc_orientation_classify</code>, <code>use_doc_unwarping</code>) no aportan mejora en documentos digitales</li></ul>
<b>Respecto a OE4 (Optimización con Ray Tune)</b>:
<ul><li>Se ejecutaron 64 trials con el algoritmo OptunaSearch</li><li>El tiempo total del experimento fue aproximadamente 6 horas (en CPU)</li><li>La arquitectura basada en subprocesos permitió superar incompatibilidades entre Ray y PaddleOCR</li></ul>
<b>Respecto a OE5 (Validación de la configuración)</b>:
<ul><li>Se validó la configuración óptima sobre el dataset completo de 24 páginas</li><li>La mejora obtenida fue del 80.9% en reducción del CER (7.78% → 1.49%)</li><li>La precisión de caracteres alcanzó el 98.51%</li></ul>
<h3>5.1.3. Hallazgos Clave</h3>
<ol><li><b>Arquitectura sobre umbrales</b>: Un único parámetro booleano (<code>textline_orientation</code>) tiene más impacto que todos los umbrales continuos combinados.</li></ol>
<ol><li><b>Umbrales mínimos efectivos</b>: Valores de <code>text_det_thresh</code> < 0.1 causan fallos catastróficos (CER >40%).</li></ol>
<ol><li><b>Simplicidad para documentos digitales</b>: Para documentos PDF digitales (no escaneados), los módulos de corrección de orientación y deformación son innecesarios.</li></ol>
<ol><li><b>Optimización sin fine-tuning</b>: Se puede mejorar significativamente el rendimiento de modelos preentrenados mediante ajuste de hiperparámetros de inferencia.</li></ol>
<h3>5.1.4. Contribuciones del Trabajo</h3>
<ol><li><b>Metodología reproducible</b>: Se documenta un proceso completo de optimización de hiperparámetros OCR con Ray Tune + Optuna.</li></ol>
<ol><li><b>Análisis de hiperparámetros de PaddleOCR</b>: Se cuantifica el impacto de cada parámetro configurable mediante correlaciones y análisis comparativo.</li></ol>
<ol><li><b>Configuración óptima para español</b>: Se proporciona una configuración validada para documentos académicos en español.</li></ol>
<ol><li><b>Código fuente</b>: Todo el código está disponible en el repositorio GitHub para reproducción y extensión.</li></ol>
<h3>5.1.5. Limitaciones del Trabajo</h3>
<ol><li><b>Tipo de documento único</b>: Los experimentos se realizaron únicamente sobre documentos académicos de UNIR. La generalización a otros tipos de documentos requiere validación adicional.</li></ol>
<ol><li><b>Tamaño del dataset</b>: 24 páginas es un corpus limitado para conclusiones estadísticamente robustas.</li></ol>
<ol><li><b>Ground truth automático</b>: La extracción automática del texto de referencia puede introducir errores en layouts complejos.</li></ol>
<ol><li><b>Ejecución en CPU</b>: Los tiempos de procesamiento (~69s/página) limitan la aplicabilidad en escenarios de alto volumen.</li></ol>
<ol><li><b>Parámetro no explorado</b>: <code>text_det_unclip_ratio</code> permaneció fijo en 0.0 durante todo el experimento.</li></ol>
<h2>5.2. Líneas de trabajo futuro</h2>
<h3>5.2.1. Extensiones Inmediatas</h3>
<ol><li><b>Validación cruzada</b>: Evaluar la configuración óptima en otros tipos de documentos en español (facturas, formularios, textos manuscritos).</li></ol>
<ol><li><b>Exploración de <code>text_det_unclip_ratio</code></b>: Incluir este parámetro en el espacio de búsqueda.</li></ol>
<ol><li><b>Dataset ampliado</b>: Construir un corpus más amplio y diverso de documentos en español.</li></ol>
<ol><li><b>Evaluación con GPU</b>: Medir tiempos de inferencia con aceleración GPU.</li></ol>
<h3>5.2.2. Líneas de Investigación</h3>
<ol><li><b>Transfer learning de hiperparámetros</b>: Investigar si las configuraciones óptimas para un tipo de documento transfieren a otros dominios.</li></ol>
<ol><li><b>Optimización multi-objetivo</b>: Considerar simultáneamente CER, WER y tiempo de inferencia como objetivos.</li></ol>
<ol><li><b>AutoML para OCR</b>: Aplicar técnicas de AutoML más avanzadas (Neural Architecture Search, meta-learning).</li></ol>
<ol><li><b>Comparación con fine-tuning</b>: Cuantificar la brecha de rendimiento entre optimización de hiperparámetros y fine-tuning real.</li></ol>
<h3>5.2.3. Aplicaciones Prácticas</h3>
<ol><li><b>Herramienta de configuración automática</b>: Desarrollar una herramienta que determine automáticamente la configuración óptima para un nuevo tipo de documento.</li></ol>
<ol><li><b>Integración en pipelines de producción</b>: Implementar la configuración optimizada en sistemas reales de procesamiento documental.</li></ol>
<ol><li><b>Benchmark público</b>: Publicar un benchmark de OCR para documentos en español que facilite la comparación de soluciones.</li></ol>
<h3>5.2.4. Reflexión Final</h3>
<p class="MsoNormal">Este trabajo demuestra que, en un contexto de recursos limitados donde el fine-tuning de modelos de deep learning no es viable, la optimización de hiperparámetros representa una alternativa práctica y efectiva para mejorar sistemas OCR.</p>
<p class="MsoNormal">La metodología propuesta es reproducible, los resultados son cuantificables, y las conclusiones son aplicables a escenarios reales de procesamiento documental. La reducción del CER del 7.78% al 1.49% representa una mejora sustancial que puede tener impacto directo en aplicaciones downstream como extracción de información, análisis semántico y búsqueda de documentos.</p>
<p class="MsoNormal">El código fuente y los datos experimentales están disponibles públicamente para facilitar la reproducción y extensión de este trabajo.</p></div>
<div class="chapter referencias">
<h1>Referencias bibliográficas {.unnumbered}</h1>
<p class="MsoNormal">Akiba, T., Sano, S., Yanase, T., Ohta, T., & Koyama, M. (2019). Optuna: A next-generation hyperparameter optimization framework. <i>Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining</i>, 2623-2631. https://doi.org/10.1145/3292500.3330701</p>
<p class="MsoNormal">Baek, Y., Lee, B., Han, D., Yun, S., & Lee, H. (2019). Character region awareness for text detection. <i>Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition</i>, 9365-9374. https://doi.org/10.1109/CVPR.2019.00959</p>
<p class="MsoNormal">Bergstra, J., & Bengio, Y. (2012). Random search for hyper-parameter optimization. <i>Journal of Machine Learning Research</i>, 13(1), 281-305. https://jmlr.org/papers/v13/bergstra12a.html</p>
<p class="MsoNormal">Bergstra, J., Bardenet, R., Bengio, Y., & Kégl, B. (2011). Algorithms for hyper-parameter optimization. <i>Advances in Neural Information Processing Systems</i>, 24, 2546-2554. https://papers.nips.cc/paper/2011/hash/86e8f7ab32cfd12577bc2619bc635690-Abstract.html</p>
<p class="MsoNormal">Cohen, J. (1988). <i>Statistical power analysis for the behavioral sciences</i> (2nd ed.). Lawrence Erlbaum Associates.</p>
<p class="MsoNormal">Doran, G. T. (1981). There's a S.M.A.R.T. way to write management's goals and objectives. <i>Management Review</i>, 70(11), 35-36.</p>
<p class="MsoNormal">Du, Y., Li, C., Guo, R., Yin, X., Liu, W., Zhou, J., Bai, Y., Yu, Z., Yang, Y., Dang, Q., & Wang, H. (2020). PP-OCR: A practical ultra lightweight OCR system. <i>arXiv preprint arXiv:2009.09941</i>. https://arxiv.org/abs/2009.09941</p>
<p class="MsoNormal">Du, Y., Li, C., Guo, R., Cui, C., Liu, W., Zhou, J., Lu, B., Yang, Y., Liu, Q., Hu, X., Yu, D., & Wang, H. (2023). PP-OCRv4: Mobile scene text detection and recognition. <i>arXiv preprint arXiv:2310.05930</i>. https://arxiv.org/abs/2310.05930</p>
<p class="MsoNormal">Feurer, M., & Hutter, F. (2019). Hyperparameter optimization. In F. Hutter, L. Kotthoff, & J. Vanschoren (Eds.), <i>Automated machine learning: Methods, systems, challenges</i> (pp. 3-33). Springer. https://doi.org/10.1007/978-3-030-05318-5_1</p>
<p class="MsoNormal">He, P., Huang, W., Qiao, Y., Loy, C. C., & Tang, X. (2016). Reading scene text in deep convolutional sequences. <i>Proceedings of the AAAI Conference on Artificial Intelligence</i>, 30(1), 3501-3508. https://doi.org/10.1609/aaai.v30i1.10291</p>
<p class="MsoNormal">JaidedAI. (2020). EasyOCR: Ready-to-use OCR with 80+ supported languages. GitHub. https://github.com/JaidedAI/EasyOCR</p>
<p class="MsoNormal">Liang, J., Doermann, D., & Li, H. (2005). Camera-based analysis of text and documents: A survey. <i>International Journal of Document Analysis and Recognition</i>, 7(2), 84-104. https://doi.org/10.1007/s10032-004-0138-z</p>
<p class="MsoNormal">Liao, M., Wan, Z., Yao, C., Chen, K., & Bai, X. (2020). Real-time scene text detection with differentiable binarization. <i>Proceedings of the AAAI Conference on Artificial Intelligence</i>, 34(07), 11474-11481. https://doi.org/10.1609/aaai.v34i07.6812</p>
<p class="MsoNormal">Liaw, R., Liang, E., Nishihara, R., Moritz, P., Gonzalez, J. E., & Stoica, I. (2018). Tune: A research platform for distributed model selection and training. <i>arXiv preprint arXiv:1807.05118</i>. https://arxiv.org/abs/1807.05118</p>
<p class="MsoNormal">Mindee. (2021). DocTR: Document Text Recognition. GitHub. https://github.com/mindee/doctr</p>
<p class="MsoNormal">Moritz, P., Nishihara, R., Wang, S., Tumanov, A., Liaw, R., Liang, E., Elibol, M., Yang, Z., Paul, W., Jordan, M. I., & Stoica, I. (2018). Ray: A distributed framework for emerging AI applications. <i>13th USENIX Symposium on Operating Systems Design and Implementation (OSDI 18)</i>, 561-577. https://www.usenix.org/conference/osdi18/presentation/moritz</p>
<p class="MsoNormal">Morris, A. C., Maier, V., & Green, P. D. (2004). From WER and RIL to MER and WIL: Improved evaluation measures for connected speech recognition. <i>Eighth International Conference on Spoken Language Processing</i>. https://doi.org/10.21437/Interspeech.2004-668</p>
<p class="MsoNormal">PaddlePaddle. (2024). PaddleOCR: Awesome multilingual OCR toolkits based on PaddlePaddle. GitHub. https://github.com/PaddlePaddle/PaddleOCR</p>
<p class="MsoNormal">Pearson, K. (1895). Notes on regression and inheritance in the case of two parents. <i>Proceedings of the Royal Society of London</i>, 58, 240-242. https://doi.org/10.1098/rspl.1895.0041</p>
<p class="MsoNormal">PyMuPDF. (2024). PyMuPDF documentation. https://pymupdf.readthedocs.io/</p>
<p class="MsoNormal">Shi, B., Bai, X., & Yao, C. (2016). An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. <i>IEEE Transactions on Pattern Analysis and Machine Intelligence</i>, 39(11), 2298-2304. https://doi.org/10.1109/TPAMI.2016.2646371</p>
<p class="MsoNormal">Smith, R. (2007). An overview of the Tesseract OCR engine. <i>Ninth International Conference on Document Analysis and Recognition (ICDAR 2007)</i>, 2, 629-633. https://doi.org/10.1109/ICDAR.2007.4376991</p>
<p class="MsoNormal">Zhou, X., Yao, C., Wen, H., Wang, Y., Zhou, S., He, W., & Liang, J. (2017). EAST: An efficient and accurate scene text detector. <i>Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition</i>, 5551-5560. https://doi.org/10.1109/CVPR.2017.283</p>
<p class="MsoNormal">Zoph, B., & Le, Q. V. (2017). Neural architecture search with reinforcement learning. <i>International Conference on Learning Representations (ICLR)</i>. https://arxiv.org/abs/1611.01578</p></div>
<div class="chapter">
<h1>Anexo A. Código fuente y datos analizados {.unnumbered}</h1>
<h2>A.1 Repositorio del Proyecto</h2>
<p class="MsoNormal">El código fuente completo y los datos utilizados en este trabajo están disponibles en el siguiente repositorio:</p>
<b>URL del repositorio:</b> https://github.com/seryus/MastersThesis
<p class="MsoNormal">El repositorio incluye:</p>
<ul><li><b>Notebooks de experimentación</b>: Código completo de los experimentos realizados</li><li><b>Scripts de evaluación</b>: Herramientas para evaluar modelos OCR</li><li><b>Dataset</b>: Imágenes y textos de referencia utilizados</li><li><b>Resultados</b>: Archivos CSV con los resultados de los 64 trials de Ray Tune</li></ul>
<h2>A.2 Estructura del Repositorio</h2>
<p class="MsoNormal">``<code></p>
<p class="MsoNormal">MastersThesis/</p>
<p class="MsoNormal">├── docs/ # Capítulos de la tesis en Markdown</p>
<p class="MsoNormal">├── src/</p>
<p class="MsoNormal">│ ├── paddle_ocr_fine_tune_unir_raytune.ipynb # Experimento principal</p>
<p class="MsoNormal">│ ├── paddle_ocr_tuning.py # Script de evaluación CLI</p>
<p class="MsoNormal">│ ├── dataset_manager.py # Clase ImageTextDataset</p>
<p class="MsoNormal">│ ├── prepare_dataset.ipynb # Preparación del dataset</p>
<p class="MsoNormal">│ └── raytune_paddle_subproc_results_*.csv # Resultados de 64 trials</p>
<p class="MsoNormal">├── results/ # Resultados de benchmarks</p>
<p class="MsoNormal">├── instructions/ # Instrucciones y plantilla UNIR</p>
<p class="MsoNormal">└── README.md</p>
</code>`<code>
<h2>A.3 Requisitos de Software</h2>
<p class="MsoNormal">Para reproducir los experimentos se requieren las siguientes dependencias:</p>
<table border="1" style="border-collapse:collapse;margin:10px 0"><tr><th style="padding:5px;border:1px solid #ccc">Componente</th><th style="padding:5px;border:1px solid #ccc">Versión</th></tr><tr><td style="padding:5px;border:1px solid #ccc">Python</td><td style="padding:5px;border:1px solid #ccc">3.11.9</td></tr><tr><td style="padding:5px;border:1px solid #ccc">PaddlePaddle</td><td style="padding:5px;border:1px solid #ccc">3.2.2</td></tr><tr><td style="padding:5px;border:1px solid #ccc">PaddleOCR</td><td style="padding:5px;border:1px solid #ccc">3.3.2</td></tr><tr><td style="padding:5px;border:1px solid #ccc">Ray</td><td style="padding:5px;border:1px solid #ccc">2.52.1</td></tr><tr><td style="padding:5px;border:1px solid #ccc">Optuna</td><td style="padding:5px;border:1px solid #ccc">4.6.0</td></tr><tr><td style="padding:5px;border:1px solid #ccc">jiwer</td><td style="padding:5px;border:1px solid #ccc">(última versión)</td></tr><tr><td style="padding:5px;border:1px solid #ccc">PyMuPDF</td><td style="padding:5px;border:1px solid #ccc">(última versión)</td></tr></table>
<h2>A.4 Instrucciones de Ejecución</h2>
<ol><li>Clonar el repositorio</li><li>Instalar dependencias: </code>pip install -r requirements.txt<code></li><li>Ejecutar el notebook </code>src/paddle_ocr_fine_tune_unir_raytune.ipynb`</li></ol>
<h2>A.5 Licencia</h2>
<p class="MsoNormal">El código se distribuye bajo licencia MIT.</p></div>
</body></html>

View File

@@ -0,0 +1,2 @@
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<a:clrMap xmlns:a="http://schemas.openxmlformats.org/drawingml/2006/main" bg1="lt1" tx1="dk1" bg2="lt2" tx2="dk2" accent1="accent1" accent2="accent2" accent3="accent3" accent4="accent4" accent5="accent5" accent6="accent6" hlink="hlink" folHlink="folHlink"/>

View File

@@ -0,0 +1,21 @@
<xml xmlns:o="urn:schemas-microsoft-com:office:office">
<o:MainFile HRef="../plantilla_individual.htm"/>
<o:File HRef="item0001.xml"/>
<o:File HRef="props002.xml"/>
<o:File HRef="item0003.xml"/>
<o:File HRef="props004.xml"/>
<o:File HRef="item0005.xml"/>
<o:File HRef="props006.xml"/>
<o:File HRef="item0007.xml"/>
<o:File HRef="props008.xml"/>
<o:File HRef="themedata.thmx"/>
<o:File HRef="colorschememapping.xml"/>
<o:File HRef="image001.png"/>
<o:File HRef="image002.gif"/>
<o:File HRef="image003.png"/>
<o:File HRef="image004.jpg"/>
<o:File HRef="image005.png"/>
<o:File HRef="image006.gif"/>
<o:File HRef="header.htm"/>
<o:File HRef="filelist.xml"/>
</xml>

View File

@@ -0,0 +1,113 @@
<html xmlns:v="urn:schemas-microsoft-com:vml"
xmlns:o="urn:schemas-microsoft-com:office:office"
xmlns:w="urn:schemas-microsoft-com:office:word"
xmlns:m="http://schemas.microsoft.com/office/2004/12/omml"
xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv=Content-Type content="text/html; charset=windows-1252">
<meta name=ProgId content=Word.Document>
<meta name=Generator content="Microsoft Word 15">
<meta name=Originator content="Microsoft Word 15">
<link id=Main-File rel=Main-File href="../plantilla_individual.htm">
<!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="2050"/>
</xml><![endif]-->
</head>
<body link="#0563C1" vlink="#954F72">
<div style='mso-element:footnote-separator' id=fs>
<p class=MsoNormal><span lang=ES><span style='mso-special-character:footnote-separator'><![if !supportFootnotes]>
<hr align=left size=1 width="33%">
<![endif]></span></span></p>
</div>
<div style='mso-element:footnote-continuation-separator' id=fcs>
<p class=MsoNormal><span lang=ES><span style='mso-special-character:footnote-continuation-separator'><![if !supportFootnotes]>
<hr align=left size=1>
<![endif]></span></span></p>
</div>
<div style='mso-element:endnote-separator' id=es>
<p class=MsoNormal><span lang=ES><span style='mso-special-character:footnote-separator'><![if !supportFootnotes]>
<hr align=left size=1 width="33%">
<![endif]></span></span></p>
</div>
<div style='mso-element:endnote-continuation-separator' id=ecs>
<p class=MsoNormal><span lang=ES><span style='mso-special-character:footnote-continuation-separator'><![if !supportFootnotes]>
<hr align=left size=1>
<![endif]></span></span></p>
</div>
<div style='mso-element:header' id=eh1>
<p class=MsoHeader><span lang=ES><o:p>&nbsp;</o:p></span></p>
</div>
<div style='mso-element:header' id=h1>
<p class=MsoHeader align=right style='margin:0cm;text-align:right;line-height:
normal'><span lang=ES style='font-size:10.0pt;mso-bidi-font-size:12.0pt;
font-family:"Calibri Light",sans-serif;mso-ascii-theme-font:major-latin;
mso-hansi-theme-font:major-latin;mso-bidi-font-family:"Times New Roman"'>Sergio
Jiménez <span class=SpellE>Jiménez</span><o:p></o:p></span></p>
<p class=MsoHeader align=right style='margin:0cm;text-align:right;line-height:
normal'><span lang=ES style='font-size:10.0pt;mso-bidi-font-size:12.0pt;
font-family:"Calibri Light",sans-serif;mso-ascii-theme-font:major-latin;
mso-hansi-theme-font:major-latin;mso-bidi-font-family:"Times New Roman"'>Optimización
de Hiperparámetros OCR con Ray Tune para Documentos Académicos en <span
class=GramE>Español</span><o:p></o:p></span></p>
</div>
<div style='mso-element:footer' id=ef1>
<p class=MsoFooter><span lang=ES><o:p>&nbsp;</o:p></span></p>
</div>
<div style='mso-element:footer' id=f1>
<p class=Pgina><!--[if supportFields]><span lang=ES><span style='mso-element:
field-begin'></span>PAGE<span style='mso-spacerun:yes'>   </span>\* MERGEFORMAT<span
style='mso-element:field-separator'></span></span><![endif]--><span lang=ES><span
style='mso-no-proof:yes'>13</span></span><!--[if supportFields]><span lang=ES><span
style='mso-element:field-end'></span></span><![endif]--></p>
</div>
<div style='mso-element:header' id=fh1>
<p class=MsoHeader><span lang=ES><o:p>&nbsp;</o:p></span></p>
</div>
<div style='mso-element:footer' id=ff1>
<p class=MsoFooter><span lang=ES><o:p>&nbsp;</o:p></span></p>
</div>
</body>
</html>

Binary file not shown.

After

Width:  |  Height:  |  Size: 10 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 3.9 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 23 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 16 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 13 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 25 KiB

View File

@@ -0,0 +1,258 @@
<?xml version="1.0" encoding="utf-8"?><ct:contentTypeSchema ct:_="" ma:_="" ma:contentTypeName="Documento" ma:contentTypeID="0x010100DF3D7C797EA12745A270EF30E38719B9" ma:contentTypeVersion="19" ma:contentTypeDescription="Crear nuevo documento." ma:contentTypeScope="" ma:versionID="227b02526234ef39b0b78895a9d90cf5" xmlns:ct="http://schemas.microsoft.com/office/2006/metadata/contentType" xmlns:ma="http://schemas.microsoft.com/office/2006/metadata/properties/metaAttributes">
<xsd:schema targetNamespace="http://schemas.microsoft.com/office/2006/metadata/properties" ma:root="true" ma:fieldsID="3c939c8607e2f594db8bbb23634dd059" ns2:_="" ns3:_="" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:xs="http://www.w3.org/2001/XMLSchema" xmlns:p="http://schemas.microsoft.com/office/2006/metadata/properties" xmlns:ns2="0a70e875-3d35-4be2-921f-7117c31bab9b" xmlns:ns3="27c1adeb-3674-457c-b08c-8a73f31b6e23">
<xsd:import namespace="0a70e875-3d35-4be2-921f-7117c31bab9b"/>
<xsd:import namespace="27c1adeb-3674-457c-b08c-8a73f31b6e23"/>
<xsd:element name="properties">
<xsd:complexType>
<xsd:sequence>
<xsd:element name="documentManagement">
<xsd:complexType>
<xsd:all>
<xsd:element ref="ns2:SharedWithUsers" minOccurs="0"/>
<xsd:element ref="ns2:SharedWithDetails" minOccurs="0"/>
<xsd:element ref="ns3:MediaServiceMetadata" minOccurs="0"/>
<xsd:element ref="ns3:MediaServiceFastMetadata" minOccurs="0"/>
<xsd:element ref="ns3:MediaServiceAutoKeyPoints" minOccurs="0"/>
<xsd:element ref="ns3:MediaServiceKeyPoints" minOccurs="0"/>
<xsd:element ref="ns3:MediaServiceAutoTags" minOccurs="0"/>
<xsd:element ref="ns3:MediaServiceOCR" minOccurs="0"/>
<xsd:element ref="ns3:MediaServiceGenerationTime" minOccurs="0"/>
<xsd:element ref="ns3:MediaServiceEventHashCode" minOccurs="0"/>
<xsd:element ref="ns3:MediaServiceDateTaken" minOccurs="0"/>
<xsd:element ref="ns3:MediaLengthInSeconds" minOccurs="0"/>
<xsd:element ref="ns3:MediaServiceLocation" minOccurs="0"/>
<xsd:element ref="ns3:lcf76f155ced4ddcb4097134ff3c332f" minOccurs="0"/>
<xsd:element ref="ns2:TaxCatchAll" minOccurs="0"/>
<xsd:element ref="ns3:MediaServiceSearchProperties" minOccurs="0"/>
<xsd:element ref="ns3:_Flow_SignoffStatus" minOccurs="0"/>
<xsd:element ref="ns3:MediaServiceObjectDetectorVersions" minOccurs="0"/>
</xsd:all>
</xsd:complexType>
</xsd:element>
</xsd:sequence>
</xsd:complexType>
</xsd:element>
</xsd:schema>
<xsd:schema targetNamespace="0a70e875-3d35-4be2-921f-7117c31bab9b" elementFormDefault="qualified" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:xs="http://www.w3.org/2001/XMLSchema" xmlns:dms="http://schemas.microsoft.com/office/2006/documentManagement/types" xmlns:pc="http://schemas.microsoft.com/office/infopath/2007/PartnerControls">
<xsd:import namespace="http://schemas.microsoft.com/office/2006/documentManagement/types"/>
<xsd:import namespace="http://schemas.microsoft.com/office/infopath/2007/PartnerControls"/>
<xsd:element name="SharedWithUsers" ma:index="8" nillable="true" ma:displayName="Compartido con" ma:internalName="SharedWithUsers" ma:readOnly="true">
<xsd:complexType>
<xsd:complexContent>
<xsd:extension base="dms:UserMulti">
<xsd:sequence>
<xsd:element name="UserInfo" minOccurs="0" maxOccurs="unbounded">
<xsd:complexType>
<xsd:sequence>
<xsd:element name="DisplayName" type="xsd:string" minOccurs="0"/>
<xsd:element name="AccountId" type="dms:UserId" minOccurs="0" nillable="true"/>
<xsd:element name="AccountType" type="xsd:string" minOccurs="0"/>
</xsd:sequence>
</xsd:complexType>
</xsd:element>
</xsd:sequence>
</xsd:extension>
</xsd:complexContent>
</xsd:complexType>
</xsd:element>
<xsd:element name="SharedWithDetails" ma:index="9" nillable="true" ma:displayName="Detalles de uso compartido" ma:internalName="SharedWithDetails" ma:readOnly="true">
<xsd:simpleType>
<xsd:restriction base="dms:Note">
<xsd:maxLength value="255"/>
</xsd:restriction>
</xsd:simpleType>
</xsd:element>
<xsd:element name="TaxCatchAll" ma:index="23" nillable="true" ma:displayName="Taxonomy Catch All Column" ma:hidden="true" ma:list="{c7f67346-78c9-4c4d-b954-8d350fdf60db}" ma:internalName="TaxCatchAll" ma:showField="CatchAllData" ma:web="0a70e875-3d35-4be2-921f-7117c31bab9b">
<xsd:complexType>
<xsd:complexContent>
<xsd:extension base="dms:MultiChoiceLookup">
<xsd:sequence>
<xsd:element name="Value" type="dms:Lookup" maxOccurs="unbounded" minOccurs="0" nillable="true"/>
</xsd:sequence>
</xsd:extension>
</xsd:complexContent>
</xsd:complexType>
</xsd:element>
</xsd:schema>
<xsd:schema targetNamespace="27c1adeb-3674-457c-b08c-8a73f31b6e23" elementFormDefault="qualified" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:xs="http://www.w3.org/2001/XMLSchema" xmlns:dms="http://schemas.microsoft.com/office/2006/documentManagement/types" xmlns:pc="http://schemas.microsoft.com/office/infopath/2007/PartnerControls">
<xsd:import namespace="http://schemas.microsoft.com/office/2006/documentManagement/types"/>
<xsd:import namespace="http://schemas.microsoft.com/office/infopath/2007/PartnerControls"/>
<xsd:element name="MediaServiceMetadata" ma:index="10" nillable="true" ma:displayName="MediaServiceMetadata" ma:hidden="true" ma:internalName="MediaServiceMetadata" ma:readOnly="true">
<xsd:simpleType>
<xsd:restriction base="dms:Note"/>
</xsd:simpleType>
</xsd:element>
<xsd:element name="MediaServiceFastMetadata" ma:index="11" nillable="true" ma:displayName="MediaServiceFastMetadata" ma:hidden="true" ma:internalName="MediaServiceFastMetadata" ma:readOnly="true">
<xsd:simpleType>
<xsd:restriction base="dms:Note"/>
</xsd:simpleType>
</xsd:element>
<xsd:element name="MediaServiceAutoKeyPoints" ma:index="12" nillable="true" ma:displayName="MediaServiceAutoKeyPoints" ma:hidden="true" ma:internalName="MediaServiceAutoKeyPoints" ma:readOnly="true">
<xsd:simpleType>
<xsd:restriction base="dms:Note"/>
</xsd:simpleType>
</xsd:element>
<xsd:element name="MediaServiceKeyPoints" ma:index="13" nillable="true" ma:displayName="KeyPoints" ma:internalName="MediaServiceKeyPoints" ma:readOnly="true">
<xsd:simpleType>
<xsd:restriction base="dms:Note">
<xsd:maxLength value="255"/>
</xsd:restriction>
</xsd:simpleType>
</xsd:element>
<xsd:element name="MediaServiceAutoTags" ma:index="14" nillable="true" ma:displayName="Tags" ma:internalName="MediaServiceAutoTags" ma:readOnly="true">
<xsd:simpleType>
<xsd:restriction base="dms:Text"/>
</xsd:simpleType>
</xsd:element>
<xsd:element name="MediaServiceOCR" ma:index="15" nillable="true" ma:displayName="Extracted Text" ma:internalName="MediaServiceOCR" ma:readOnly="true">
<xsd:simpleType>
<xsd:restriction base="dms:Note">
<xsd:maxLength value="255"/>
</xsd:restriction>
</xsd:simpleType>
</xsd:element>
<xsd:element name="MediaServiceGenerationTime" ma:index="16" nillable="true" ma:displayName="MediaServiceGenerationTime" ma:hidden="true" ma:internalName="MediaServiceGenerationTime" ma:readOnly="true">
<xsd:simpleType>
<xsd:restriction base="dms:Text"/>
</xsd:simpleType>
</xsd:element>
<xsd:element name="MediaServiceEventHashCode" ma:index="17" nillable="true" ma:displayName="MediaServiceEventHashCode" ma:hidden="true" ma:internalName="MediaServiceEventHashCode" ma:readOnly="true">
<xsd:simpleType>
<xsd:restriction base="dms:Text"/>
</xsd:simpleType>
</xsd:element>
<xsd:element name="MediaServiceDateTaken" ma:index="18" nillable="true" ma:displayName="MediaServiceDateTaken" ma:hidden="true" ma:internalName="MediaServiceDateTaken" ma:readOnly="true">
<xsd:simpleType>
<xsd:restriction base="dms:Text"/>
</xsd:simpleType>
</xsd:element>
<xsd:element name="MediaLengthInSeconds" ma:index="19" nillable="true" ma:displayName="Length (seconds)" ma:internalName="MediaLengthInSeconds" ma:readOnly="true">
<xsd:simpleType>
<xsd:restriction base="dms:Unknown"/>
</xsd:simpleType>
</xsd:element>
<xsd:element name="MediaServiceLocation" ma:index="20" nillable="true" ma:displayName="Location" ma:internalName="MediaServiceLocation" ma:readOnly="true">
<xsd:simpleType>
<xsd:restriction base="dms:Text"/>
</xsd:simpleType>
</xsd:element>
<xsd:element name="lcf76f155ced4ddcb4097134ff3c332f" ma:index="22" nillable="true" ma:taxonomy="true" ma:internalName="lcf76f155ced4ddcb4097134ff3c332f" ma:taxonomyFieldName="MediaServiceImageTags" ma:displayName="Etiquetas de imagen" ma:readOnly="false" ma:fieldId="{5cf76f15-5ced-4ddc-b409-7134ff3c332f}" ma:taxonomyMulti="true" ma:sspId="17631b59-e624-4eb7-963c-219f14f887a3" ma:termSetId="09814cd3-568e-fe90-9814-8d621ff8fb84" ma:anchorId="fba54fb3-c3e1-fe81-a776-ca4b69148c4d" ma:open="true" ma:isKeyword="false">
<xsd:complexType>
<xsd:sequence>
<xsd:element ref="pc:Terms" minOccurs="0" maxOccurs="1"></xsd:element>
</xsd:sequence>
</xsd:complexType>
</xsd:element>
<xsd:element name="MediaServiceSearchProperties" ma:index="24" nillable="true" ma:displayName="MediaServiceSearchProperties" ma:hidden="true" ma:internalName="MediaServiceSearchProperties" ma:readOnly="true">
<xsd:simpleType>
<xsd:restriction base="dms:Note"/>
</xsd:simpleType>
</xsd:element>
<xsd:element name="_Flow_SignoffStatus" ma:index="25" nillable="true" ma:displayName="Estado de aprobación" ma:internalName="Estado_x0020_de_x0020_aprobaci_x00f3_n">
<xsd:simpleType>
<xsd:restriction base="dms:Text"/>
</xsd:simpleType>
</xsd:element>
<xsd:element name="MediaServiceObjectDetectorVersions" ma:index="26" nillable="true" ma:displayName="MediaServiceObjectDetectorVersions" ma:description="" ma:hidden="true" ma:indexed="true" ma:internalName="MediaServiceObjectDetectorVersions" ma:readOnly="true">
<xsd:simpleType>
<xsd:restriction base="dms:Text"/>
</xsd:simpleType>
</xsd:element>
</xsd:schema>
<xsd:schema targetNamespace="http://schemas.openxmlformats.org/package/2006/metadata/core-properties" elementFormDefault="qualified" attributeFormDefault="unqualified" blockDefault="#all" xmlns="http://schemas.openxmlformats.org/package/2006/metadata/core-properties" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:odoc="http://schemas.microsoft.com/internal/obd">
<xsd:import namespace="http://purl.org/dc/elements/1.1/" schemaLocation="http://dublincore.org/schemas/xmls/qdc/2003/04/02/dc.xsd"/>
<xsd:import namespace="http://purl.org/dc/terms/" schemaLocation="http://dublincore.org/schemas/xmls/qdc/2003/04/02/dcterms.xsd"/>
<xsd:element name="coreProperties" type="CT_coreProperties"/>
<xsd:complexType name="CT_coreProperties">
<xsd:all>
<xsd:element ref="dc:creator" minOccurs="0" maxOccurs="1"/>
<xsd:element ref="dcterms:created" minOccurs="0" maxOccurs="1"/>
<xsd:element ref="dc:identifier" minOccurs="0" maxOccurs="1"/>
<xsd:element name="contentType" minOccurs="0" maxOccurs="1" type="xsd:string" ma:index="0" ma:displayName="Tipo de contenido"/>
<xsd:element ref="dc:title" minOccurs="0" maxOccurs="1" ma:index="4" ma:displayName="Título"/>
<xsd:element ref="dc:subject" minOccurs="0" maxOccurs="1"/>
<xsd:element ref="dc:description" minOccurs="0" maxOccurs="1"/>
<xsd:element name="keywords" minOccurs="0" maxOccurs="1" type="xsd:string"/>
<xsd:element ref="dc:language" minOccurs="0" maxOccurs="1"/>
<xsd:element name="category" minOccurs="0" maxOccurs="1" type="xsd:string"/>
<xsd:element name="version" minOccurs="0" maxOccurs="1" type="xsd:string"/>
<xsd:element name="revision" minOccurs="0" maxOccurs="1" type="xsd:string">
<xsd:annotation>
<xsd:documentation>
This value indicates the number of saves or revisions. The application is responsible for updating this value after each revision.
</xsd:documentation>
</xsd:annotation>
</xsd:element>
<xsd:element name="lastModifiedBy" minOccurs="0" maxOccurs="1" type="xsd:string"/>
<xsd:element ref="dcterms:modified" minOccurs="0" maxOccurs="1"/>
<xsd:element name="contentStatus" minOccurs="0" maxOccurs="1" type="xsd:string"/>
</xsd:all>
</xsd:complexType>
</xsd:schema>
<xs:schema targetNamespace="http://schemas.microsoft.com/office/infopath/2007/PartnerControls" elementFormDefault="qualified" attributeFormDefault="unqualified" xmlns:pc="http://schemas.microsoft.com/office/infopath/2007/PartnerControls" xmlns:xs="http://www.w3.org/2001/XMLSchema">
<xs:element name="Person">
<xs:complexType>
<xs:sequence>
<xs:element ref="pc:DisplayName" minOccurs="0"></xs:element>
<xs:element ref="pc:AccountId" minOccurs="0"></xs:element>
<xs:element ref="pc:AccountType" minOccurs="0"></xs:element>
</xs:sequence>
</xs:complexType>
</xs:element>
<xs:element name="DisplayName" type="xs:string"></xs:element>
<xs:element name="AccountId" type="xs:string"></xs:element>
<xs:element name="AccountType" type="xs:string"></xs:element>
<xs:element name="BDCAssociatedEntity">
<xs:complexType>
<xs:sequence>
<xs:element ref="pc:BDCEntity" minOccurs="0" maxOccurs="unbounded"></xs:element>
</xs:sequence>
<xs:attribute ref="pc:EntityNamespace"></xs:attribute>
<xs:attribute ref="pc:EntityName"></xs:attribute>
<xs:attribute ref="pc:SystemInstanceName"></xs:attribute>
<xs:attribute ref="pc:AssociationName"></xs:attribute>
</xs:complexType>
</xs:element>
<xs:attribute name="EntityNamespace" type="xs:string"></xs:attribute>
<xs:attribute name="EntityName" type="xs:string"></xs:attribute>
<xs:attribute name="SystemInstanceName" type="xs:string"></xs:attribute>
<xs:attribute name="AssociationName" type="xs:string"></xs:attribute>
<xs:element name="BDCEntity">
<xs:complexType>
<xs:sequence>
<xs:element ref="pc:EntityDisplayName" minOccurs="0"></xs:element>
<xs:element ref="pc:EntityInstanceReference" minOccurs="0"></xs:element>
<xs:element ref="pc:EntityId1" minOccurs="0"></xs:element>
<xs:element ref="pc:EntityId2" minOccurs="0"></xs:element>
<xs:element ref="pc:EntityId3" minOccurs="0"></xs:element>
<xs:element ref="pc:EntityId4" minOccurs="0"></xs:element>
<xs:element ref="pc:EntityId5" minOccurs="0"></xs:element>
</xs:sequence>
</xs:complexType>
</xs:element>
<xs:element name="EntityDisplayName" type="xs:string"></xs:element>
<xs:element name="EntityInstanceReference" type="xs:string"></xs:element>
<xs:element name="EntityId1" type="xs:string"></xs:element>
<xs:element name="EntityId2" type="xs:string"></xs:element>
<xs:element name="EntityId3" type="xs:string"></xs:element>
<xs:element name="EntityId4" type="xs:string"></xs:element>
<xs:element name="EntityId5" type="xs:string"></xs:element>
<xs:element name="Terms">
<xs:complexType>
<xs:sequence>
<xs:element ref="pc:TermInfo" minOccurs="0" maxOccurs="unbounded"></xs:element>
</xs:sequence>
</xs:complexType>
</xs:element>
<xs:element name="TermInfo">
<xs:complexType>
<xs:sequence>
<xs:element ref="pc:TermName" minOccurs="0"></xs:element>
<xs:element ref="pc:TermId" minOccurs="0"></xs:element>
</xs:sequence>
</xs:complexType>
</xs:element>
<xs:element name="TermName" type="xs:string"></xs:element>
<xs:element name="TermId" type="xs:string"></xs:element>
</xs:schema>
</ct:contentTypeSchema>

View File

@@ -0,0 +1 @@
<?xml version="1.0" encoding="UTF-8" standalone="no"?><b:Sources SelectedStyle="\APASixthEditionOfficeOnline.xsl" StyleName="APA" Version="6" xmlns:b="http://schemas.openxmlformats.org/officeDocument/2006/bibliography" xmlns="http://schemas.openxmlformats.org/officeDocument/2006/bibliography"><b:Source><b:Tag>Dor81</b:Tag><b:SourceType>JournalArticle</b:SourceType><b:Guid>{D7C468B5-5E32-4254-9330-6DB2DDB01037}</b:Guid><b:Title>There's a S.M.A.R.T. way to write management's goals and objectives</b:Title><b:Year>1981</b:Year><b:Author><b:Author><b:NameList><b:Person><b:Last>Doran</b:Last><b:First>G.</b:First><b:Middle>T.</b:Middle></b:Person></b:NameList></b:Author></b:Author><b:JournalName>Management Review (AMA FORUM)</b:JournalName><b:Pages>35-36</b:Pages><b:Volume>70</b:Volume><b:RefOrder>1</b:RefOrder></b:Source></b:Sources>

View File

@@ -0,0 +1 @@
<?xml version="1.0" encoding="utf-8"?><p:properties xmlns:p="http://schemas.microsoft.com/office/2006/metadata/properties" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:pc="http://schemas.microsoft.com/office/infopath/2007/PartnerControls"><documentManagement><lcf76f155ced4ddcb4097134ff3c332f xmlns="27c1adeb-3674-457c-b08c-8a73f31b6e23"><Terms xmlns="http://schemas.microsoft.com/office/infopath/2007/PartnerControls"></Terms></lcf76f155ced4ddcb4097134ff3c332f><TaxCatchAll xmlns="0a70e875-3d35-4be2-921f-7117c31bab9b" xsi:nil="true"/><_Flow_SignoffStatus xmlns="27c1adeb-3674-457c-b08c-8a73f31b6e23" xsi:nil="true"/></documentManagement></p:properties>

View File

@@ -0,0 +1 @@
<?mso-contentType?><FormTemplates xmlns="http://schemas.microsoft.com/sharepoint/v3/contenttype/forms"><Display>DocumentLibraryForm</Display><Edit>DocumentLibraryForm</Edit><New>DocumentLibraryForm</New></FormTemplates>

View File

@@ -0,0 +1,2 @@
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<ds:datastoreItem ds:itemID="{B3A822E2-E694-47D5-9E22-DA4B12671ABB}" xmlns:ds="http://schemas.openxmlformats.org/officeDocument/2006/customXml"><ds:schemaRefs><ds:schemaRef ds:uri="http://schemas.microsoft.com/office/2006/metadata/contentType"/><ds:schemaRef ds:uri="http://schemas.microsoft.com/office/2006/metadata/properties/metaAttributes"/><ds:schemaRef ds:uri="http://www.w3.org/2001/XMLSchema"/><ds:schemaRef ds:uri="http://schemas.microsoft.com/office/2006/metadata/properties"/><ds:schemaRef ds:uri="0a70e875-3d35-4be2-921f-7117c31bab9b"/><ds:schemaRef ds:uri="27c1adeb-3674-457c-b08c-8a73f31b6e23"/><ds:schemaRef ds:uri="http://schemas.microsoft.com/office/2006/documentManagement/types"/><ds:schemaRef ds:uri="http://schemas.microsoft.com/office/infopath/2007/PartnerControls"/><ds:schemaRef ds:uri="http://schemas.openxmlformats.org/package/2006/metadata/core-properties"/><ds:schemaRef ds:uri="http://purl.org/dc/elements/1.1/"/><ds:schemaRef ds:uri="http://purl.org/dc/terms/"/><ds:schemaRef ds:uri="http://schemas.microsoft.com/internal/obd"/></ds:schemaRefs></ds:datastoreItem>

View File

@@ -0,0 +1,2 @@
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<ds:datastoreItem ds:itemID="{3CBD5336-2C2D-4DA8-8EBD-C205328B54AF}" xmlns:ds="http://schemas.openxmlformats.org/officeDocument/2006/customXml"><ds:schemaRefs><ds:schemaRef ds:uri="http://schemas.openxmlformats.org/officeDocument/2006/bibliography"/></ds:schemaRefs></ds:datastoreItem>

View File

@@ -0,0 +1,2 @@
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<ds:datastoreItem ds:itemID="{DB456AF2-52F5-44D8-AEC6-B5F9D96C377E}" xmlns:ds="http://schemas.openxmlformats.org/officeDocument/2006/customXml"><ds:schemaRefs><ds:schemaRef ds:uri="http://schemas.microsoft.com/office/2006/metadata/properties"/><ds:schemaRef ds:uri="http://schemas.microsoft.com/office/infopath/2007/PartnerControls"/><ds:schemaRef ds:uri="27c1adeb-3674-457c-b08c-8a73f31b6e23"/><ds:schemaRef ds:uri="0a70e875-3d35-4be2-921f-7117c31bab9b"/></ds:schemaRefs></ds:datastoreItem>

View File

@@ -0,0 +1,2 @@
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<ds:datastoreItem ds:itemID="{BE74C307-52FE-48C3-92C2-E1552852BAAA}" xmlns:ds="http://schemas.openxmlformats.org/officeDocument/2006/customXml"><ds:schemaRefs><ds:schemaRef ds:uri="http://schemas.microsoft.com/sharepoint/v3/contenttype/forms"/></ds:schemaRefs></ds:datastoreItem>

Binary file not shown.