doc
Some checks failed
build_docker / essential (pull_request) Has been cancelled
build_docker / build_cpu (pull_request) Has been cancelled
build_docker / build_gpu (pull_request) Has been cancelled
build_docker / build_easyocr (pull_request) Has been cancelled
build_docker / build_easyocr_gpu (pull_request) Has been cancelled
build_docker / build_doctr (pull_request) Has been cancelled
build_docker / build_doctr_gpu (pull_request) Has been cancelled
build_docker / build_raytune (pull_request) Has been cancelled
Some checks failed
build_docker / essential (pull_request) Has been cancelled
build_docker / build_cpu (pull_request) Has been cancelled
build_docker / build_gpu (pull_request) Has been cancelled
build_docker / build_easyocr (pull_request) Has been cancelled
build_docker / build_easyocr_gpu (pull_request) Has been cancelled
build_docker / build_doctr (pull_request) Has been cancelled
build_docker / build_doctr_gpu (pull_request) Has been cancelled
build_docker / build_raytune (pull_request) Has been cancelled
This commit is contained in:
@@ -4537,7 +4537,7 @@ mso-ansi-language:ES;mso-fareast-language:EN-US;mso-bidi-language:AR-SA'><br cle
|
||||
<div class="WordSection2">
|
||||
<h1 style="mso-list:l22 level1 lfo18"><a name="_Toc437515557"></a><a name="_Toc14106979"></a><a name="_Toc147741191"></a><a name="_Toc160619805"><span style="mso-bookmark:_Toc147741191"><span style="mso-bookmark:_Toc14106979"><span style="mso-bookmark:_Toc437515557"><?if !supportLists?><span lang="ES" style='mso-fareast-font-family:"Calibri Light";mso-fareast-theme-font:major-latin;
|
||||
mso-bidi-font-family:"Calibri Light";mso-bidi-theme-font:major-latin'><span style="mso-list:Ignore">1.<span style='font:7.0pt "Times New Roman"'>
|
||||
</span></span></span><?endif?><span lang="ES" style="text-transform:none">Introducción</span></span></span></span></a><span style="mso-bookmark:_Toc14106979"><span style="mso-bookmark:_Toc437515557"><span lang="ES" style="text-transform:none"> </span></span></span></h1><p class="MsoNormal"><span lang="ES">Este capítulo presenta la motivación del trabajo, identificando el problema a resolver y justificando su relevancia. Se plantea la pregunta de investigación central y se describe la estructura del documento.</span></p>
|
||||
</span></span></span><?endif?><span lang="ES" style="text-transform:none">Introducción</span></span></span></span></a><span style="mso-bookmark:_Toc14106979"><span style="mso-bookmark:_Toc437515557"><span lang="ES" style="text-transform:none"> </span></span></span></h1><p class="MsoNormal"><span lang="ES">¿Es posible mejorar significativamente un sistema OCR sin reentrenarlo? Esta pregunta, aparentemente simple, encierra un desafío práctico que afecta a investigadores, instituciones educativas y empresas que necesitan digitalizar documentos pero carecen de los recursos para realizar fine-tuning de modelos neuronales. A lo largo de este capítulo se desarrolla la motivación del trabajo, se identifica el problema a resolver y se plantean las preguntas de investigación que guiarán el desarrollo experimental.</span></p>
|
||||
<h2 style="mso-list:l22 level2 lfo18"><span lang="ES" style="text-transform:none">Motivación</span></h2>
|
||||
<p class="MsoNormal"><span lang="ES">El Reconocimiento Óptico de Caracteres (OCR) es una tecnología fundamental en la era de la digitalización documental. Su capacidad para convertir imágenes de texto en datos editables y procesables ha transformado sectores como la administración pública, el ámbito legal, la banca y la educación. Según estimaciones del sector, el mercado global de OCR alcanzó los 13.4 mil millones de dólares en 2023, con proyecciones de crecimiento continuo impulsado por la transformación digital empresarial (Grand View Research, 2023). Sin embargo, a pesar de los avances significativos impulsados por el aprendizaje profundo, la implementación práctica de sistemas OCR de alta precisión sigue presentando desafíos considerables.</span></p>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">El contexto de la digitalización documental</span></h3>
|
||||
@@ -4565,7 +4565,7 @@ mso-bidi-font-family:"Calibri Light";mso-bidi-theme-font:major-latin'><span styl
|
||||
<p class="MsoNormal"><span lang="ES">Esta oportunidad se ve reforzada por la disponibilidad de frameworks modernos de optimización de hiperparámetros como Ray Tune (Liaw et al., 2018) y algoritmos de búsqueda eficientes como Optuna (Akiba et al., 2019), que permiten explorar espacios de configuración de manera sistemática y eficiente.</span></p>
|
||||
<h2 style="mso-list:l22 level2 lfo18"><span lang="ES" style="text-transform:none">Planteamiento del trabajo</span></h2>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Formulación del problema</span></h3>
|
||||
<p class="MsoNormal"><span lang="ES">El problema central que aborda este trabajo puede formularse de la siguiente manera:</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Las observaciones anteriores conducen a formular el problema central de este trabajo:</span></p>
|
||||
<p class="MsoQuote"><i><span lang="ES">¿Es posible mejorar significativamente el rendimiento de modelos OCR preentrenados para documentos en español mediante la optimización sistemática de hiperparámetros, sin requerir fine-tuning ni recursos GPU?</span></i></p>
|
||||
<p class="MsoNormal"><span lang="ES">Este planteamiento parte de una observación fundamental: los sistemas OCR modernos exponen múltiples parámetros configurables que afectan su comportamiento durante la inferencia. Estos parámetros incluyen umbrales de detección, opciones de preprocesamiento, y filtros de calidad. En la práctica habitual, estos parámetros se dejan en sus valores por defecto, asumiendo que fueron optimizados por los desarrolladores del modelo. Sin embargo, los valores por defecto representan compromisos generales que pueden no ser óptimos para dominios específicos.</span></p>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Preguntas de investigación</span></h3>
|
||||
@@ -4591,17 +4591,15 @@ mso-bidi-font-family:"Calibri Light";mso-bidi-theme-font:major-latin'><span styl
|
||||
<p class="MsoNormal"><span lang="ES"><b>Pequeñas y medianas empresas</b>: Organizaciones que automatizan flujos documentales (facturas, contratos, correspondencia) sin presupuesto para soluciones enterprise o infraestructura GPU.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES"><b>Desarrolladores de software</b>: Quienes integran OCR en aplicaciones con restricciones de recursos, como dispositivos móviles o servidores compartidos, y necesitan maximizar el rendimiento sin costes adicionales de hardware.</span></p>
|
||||
<h2 style="mso-list:l22 level2 lfo18"><span lang="ES" style="text-transform:none">Estructura del trabajo</span></h2>
|
||||
<p class="MsoNormal"><span lang="ES">El presente documento se organiza en los siguientes capítulos:</span></p>
|
||||
<p class="MsoNormal"><span lang="ES"><b>Capítulo 2 - Contexto y Estado del Arte</b>: Se presenta una revisión de las tecnologías OCR basadas en aprendizaje profundo, incluyendo las arquitecturas de detección y reconocimiento de texto, así como los trabajos previos en optimización de estos sistemas.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES"><b>Capítulo 3 - Objetivos y Metodología</b>: Se definen los objetivos SMART del trabajo y se describe la metodología experimental seguida, incluyendo la preparación del dataset, las métricas de evaluación y el proceso de optimización con Ray Tune.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES"><b>Capítulo 4 - Desarrollo Específico de la Contribución</b>: Este capítulo presenta el desarrollo completo del estudio comparativo y la optimización de hiperparámetros de sistemas OCR, estructurado en tres secciones: (4.1) planteamiento de la comparativa con la evaluación de EasyOCR, PaddleOCR y DocTR; (4.2) desarrollo de la comparativa con la optimización de hiperparámetros mediante Ray Tune; y (4.3) discusión y análisis de resultados.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES"><b>Capítulo 5 - Conclusiones y Trabajo Futuro</b>: Se resumen las contribuciones del trabajo, se discute el grado de cumplimiento de los objetivos y se proponen líneas de trabajo futuro.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES"><b>Anexos</b>: Se incluye el enlace al repositorio de código fuente y datos, así como tablas completas de resultados experimentales.</span></p><h1 style="mso-list:l22 level1 lfo18"><span style="mso-bookmark:_Toc14106979"><span style="mso-bookmark:_Toc437515557"><a name="_Toc147741195"></a><a name="_Toc160619809"><span style="mso-bookmark:_Toc147741195"><?if !supportLists?><span lang="ES" style='mso-fareast-font-family:"Calibri Light";mso-fareast-theme-font:
|
||||
<p class="MsoNormal"><span lang="ES">El documento sigue una estructura que refleja el proceso investigador. Tras esta introducción, el <b>Capítulo 2</b> sitúa el trabajo en su contexto técnico, revisando las tecnologías OCR basadas en aprendizaje profundo —desde las arquitecturas de detección hasta los modelos de reconocimiento— y los trabajos previos en optimización de estos sistemas.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">El <b>Capítulo 3</b> traduce las preguntas de investigación en objetivos concretos siguiendo la metodología SMART, y describe con detalle el enfoque experimental: preparación del dataset, métricas de evaluación y configuración del proceso de optimización con Ray Tune y Optuna.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">El núcleo del trabajo se desarrolla en el <b>Capítulo 4</b>, que presenta el estudio comparativo y la optimización de hiperparámetros estructurados en tres fases: planteamiento de la comparativa con evaluación de EasyOCR, PaddleOCR y DocTR; desarrollo de la optimización mediante 64 trials con Ray Tune; y análisis crítico de los resultados obtenidos.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Finalmente, el <b>Capítulo 5</b> sintetiza las contribuciones, evalúa el grado de cumplimiento de los objetivos y propone líneas de trabajo futuro. Los <b>Anexos</b> proporcionan acceso al repositorio de código fuente y datos, así como tablas detalladas de resultados experimentales.</span></p><h1 style="mso-list:l22 level1 lfo18"><span style="mso-bookmark:_Toc14106979"><span style="mso-bookmark:_Toc437515557"><a name="_Toc147741195"></a><a name="_Toc160619809"><span style="mso-bookmark:_Toc147741195"><?if !supportLists?><span lang="ES" style='mso-fareast-font-family:"Calibri Light";mso-fareast-theme-font:
|
||||
major-latin;mso-bidi-font-family:"Calibri Light";mso-bidi-theme-font:major-latin;
|
||||
text-transform:none'><span style="mso-list:Ignore">2.<span style='font:7.0pt "Times New Roman"'>
|
||||
</span></span></span><?endif?><span lang="ES" style="text-transform:none">Contexto
|
||||
y estado del arte</span></span></a></span></span><span style="mso-bookmark:
|
||||
_Toc14106979"><span style="mso-bookmark:_Toc437515557"><span lang="ES" style="text-transform:none"><o:p></o:p></span></span></span></h1><p class="MsoNormal"><span lang="ES">Este capítulo presenta el marco teórico y tecnológico en el que se desarrolla el presente trabajo. Se revisan los fundamentos del Reconocimiento Óptico de Caracteres (OCR), la evolución de las técnicas basadas en aprendizaje profundo, las principales soluciones de código abierto disponibles y los trabajos previos relacionados con la optimización de sistemas OCR.</span></p>
|
||||
_Toc14106979"><span style="mso-bookmark:_Toc437515557"><span lang="ES" style="text-transform:none"><o:p></o:p></span></span></span></h1><p class="MsoNormal"><span lang="ES">Para comprender el alcance y las decisiones tomadas en este trabajo, es necesario situarlo en su contexto tecnológico. El Reconocimiento Óptico de Caracteres ha recorrido un largo camino desde los primeros sistemas de plantillas de los años 50 hasta las sofisticadas arquitecturas de aprendizaje profundo actuales. A lo largo de este capítulo se revisan los fundamentos técnicos del OCR moderno, se analizan las principales soluciones de código abierto y se identifican los vacíos en la literatura que motivan la contribución de este trabajo.</span></p>
|
||||
<h2 style="mso-list:l22 level2 lfo18"><span lang="ES" style="text-transform:none">Contexto del problema</span></h2>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Definición y Evolución Histórica del OCR</span></h3>
|
||||
<p class="MsoNormal"><span lang="ES">El Reconocimiento Óptico de Caracteres (OCR) es el proceso de conversión de imágenes de texto manuscrito, mecanografiado o impreso en texto codificado digitalmente. Esta tecnología permite la digitalización masiva de documentos, facilitando su búsqueda, edición y almacenamiento electrónico. La tecnología OCR ha evolucionado significativamente desde sus orígenes en la década de 1950, atravesando cuatro generaciones claramente diferenciadas:</span></p>
|
||||
@@ -4925,18 +4923,13 @@ Configuraciones con alta probabilidad bajo <math display="inline" xmlns="http://
|
||||
<p class="MsoNormal"><span lang="ES"><o:p> </o:p></span></p>
|
||||
<p class="MsoNormal"><span lang="ES">La optimización de hiperparámetros para documentos académicos en español representa una contribución original de este trabajo, abordando un nicho no explorado en la literatura.</span></p>
|
||||
<h2 style="mso-list:l22 level2 lfo18"><span lang="ES" style="text-transform:none">Conclusiones del capítulo</span></h2>
|
||||
<p class="MsoNormal"><span lang="ES">Este capítulo ha presentado el marco teórico y tecnológico necesario para contextualizar la contribución del presente trabajo:</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Evolución del OCR</b>: Se ha trazado la evolución desde los sistemas de plantillas hasta las arquitecturas de aprendizaje profundo actuales, destacando los avances clave en cada generación.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Pipeline moderno</b>: Se ha descrito el pipeline de dos etapas (detección + reconocimiento) utilizado por los sistemas OCR contemporáneos, detallando las arquitecturas más relevantes (DB, CRAFT, CRNN, SVTR, Transformer).</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Métricas de evaluación</b>: Se han definido formalmente las métricas CER y WER, estableciendo los umbrales de aceptabilidad para diferentes aplicaciones.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Particularidades del español</b>: Se han identificado los desafíos específicos del OCR para español, incluyendo caracteres especiales, diacríticos y escasez de recursos.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Soluciones de código abierto</b>: Se han analizado en profundidad EasyOCR, PaddleOCR y DocTR, justificando la selección de PaddleOCR para este trabajo por su alta configurabilidad.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Optimización de hiperparámetros</b>: Se han presentado los fundamentos teóricos de HPO, con énfasis en TPE (Optuna) y Ray Tune, identificando el vacío en la literatura respecto a la optimización de hiperparámetros de inferencia en OCR.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">El estado del arte revela que, si bien existen soluciones OCR de alta calidad, su optimización para dominios específicos mediante ajuste de hiperparámetros (sin fine-tuning) ha recibido poca atención en la literatura. Este trabajo contribuye a llenar ese vacío proponiendo una metodología reproducible para la optimización de PaddleOCR en documentos académicos en español.</span></p><h1 style="mso-list:l22 level1 lfo18"><span style="mso-bookmark:_Toc14106979"><span style="mso-bookmark:_Toc437515557"><a name="_Toc147741196"></a><a name="_Toc160619813"><span style="mso-bookmark:_Toc147741196"><?if !supportLists?><span lang="ES" style='mso-fareast-font-family:"Calibri Light";mso-fareast-theme-font:
|
||||
<p class="MsoNormal"><span lang="ES">La revisión del estado del arte revela un panorama en el que las herramientas técnicas están maduras, pero su aplicación óptima para dominios específicos permanece poco explorada. Los sistemas OCR modernos —PaddleOCR, EasyOCR, DocTR— ofrecen arquitecturas sofisticadas basadas en aprendizaje profundo que alcanzan resultados impresionantes en benchmarks estándar. Sin embargo, estos resultados no siempre se trasladan a documentos del mundo real, especialmente en idiomas con menos recursos como el español.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">La evolución desde los sistemas de plantillas de los años 50 hasta los Transformers actuales ha sido espectacular, pero ha generado sistemas con decenas de hiperparámetros configurables cuyos valores por defecto representan compromisos generales, no configuraciones óptimas para dominios específicos. La literatura abunda en trabajos sobre entrenamiento y fine-tuning de modelos OCR, pero dedica poca atención a la optimización sistemática de los parámetros de inferencia —umbrales de detección, opciones de preprocesamiento, filtros de confianza— que pueden marcar la diferencia entre un sistema usable y uno que requiere corrección manual extensiva.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Este vacío, combinado con las particularidades del español (acentos, eñes, signos invertidos) y la escasez de recursos específicos para este idioma, define el espacio de contribución del presente trabajo. Frameworks como Ray Tune y Optuna proporcionan las herramientas para abordar esta optimización de manera sistemática; PaddleOCR, con su pipeline altamente configurable, ofrece el sustrato técnico adecuado. El siguiente capítulo traduce esta oportunidad en objetivos concretos y una metodología experimental rigurosa.</span></p><h1 style="mso-list:l22 level1 lfo18"><span style="mso-bookmark:_Toc14106979"><span style="mso-bookmark:_Toc437515557"><a name="_Toc147741196"></a><a name="_Toc160619813"><span style="mso-bookmark:_Toc147741196"><?if !supportLists?><span lang="ES" style='mso-fareast-font-family:"Calibri Light";mso-fareast-theme-font:
|
||||
major-latin;mso-bidi-font-family:"Calibri Light";mso-bidi-theme-font:major-latin;
|
||||
text-transform:none'><span style="mso-list:Ignore">3.<span style='font:7.0pt "Times New Roman"'>
|
||||
</span></span></span><?endif?><span lang="ES" style="text-transform:none">Objetivos
|
||||
concretos y metodología de trabajo</span></span></a></span></span><span style="mso-bookmark:_Toc14106979"><span style="mso-bookmark:_Toc437515557"><span lang="ES" style="text-transform:none"><o:p></o:p></span></span></span></h1><p class="MsoNormal"><span lang="ES">Este capítulo establece los objetivos del trabajo siguiendo la metodología SMART (Doran, 1981) y describe la metodología experimental empleada para alcanzarlos. Se define un objetivo general y cinco objetivos específicos, todos ellos medibles y verificables.</span></p>
|
||||
concretos y metodología de trabajo</span></span></a></span></span><span style="mso-bookmark:_Toc14106979"><span style="mso-bookmark:_Toc437515557"><span lang="ES" style="text-transform:none"><o:p></o:p></span></span></span></h1><p class="MsoNormal"><span lang="ES">La motivación presentada en el capítulo anterior se traduce ahora en objetivos concretos y medibles. Siguiendo la metodología SMART propuesta por Doran (1981), se define un objetivo general que guía el trabajo y cinco objetivos específicos que lo descomponen en metas alcanzables. La segunda parte del capítulo describe la metodología experimental diseñada para alcanzar estos objetivos.</span></p>
|
||||
<h2 style="mso-list:l22 level2 lfo18"><span lang="ES" style="text-transform:none">Objetivo general</span></h2>
|
||||
<p class="MsoQuote"><i><span lang="ES"><b>Optimizar el rendimiento de PaddleOCR para documentos académicos en español mediante ajuste de hiperparámetros, alcanzando un CER inferior al 2% sin requerir fine-tuning del modelo.</b></span></i></p>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Justificación SMART del Objetivo General</span></h3>
|
||||
@@ -4957,6 +4950,7 @@ concretos y metodología de trabajo</span></span></a></span></span><span style="
|
||||
<p class="MsoQuote"><i><span lang="ES"><b>Comparar el rendimiento de la configuración baseline versus la configuración optimizada sobre el dataset completo, documentando la mejora obtenida.</b></span></i></p>
|
||||
<h2 style="mso-list:l22 level2 lfo18"><span lang="ES" style="text-transform:none">Metodología del trabajo</span></h2>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Visión General</span></h3>
|
||||
<p class="MsoNormal"><span lang="ES">La metodología se estructura en cinco fases secuenciales, cada una de las cuales produce resultados que alimentan la siguiente. Desde la preparación del dataset hasta la validación final, el proceso sigue un diseño experimental que permite reproducir y verificar cada paso.</span></p>
|
||||
<a name="_Ref_Fig3"></a><p class="MsoCaption" style="text-align:center"><b><span lang="ES" style="font-size:12.0pt;line-height:150%">Figura <!--[if supportFields]><span style='mso-element:field-begin'></span> SEQ Figura \* ARABIC <span style='mso-element:field-separator'></span><![endif]-->3<!--[if supportFields]><span style='mso-element:field-end'></span><![endif]-->.</span></b><span lang="ES" style="font-size:12.0pt;line-height:150%"> </span><i><span lang="ES" style="font-size:12.0pt;line-height:150%">Fases de la metodología experimental</span></i></p>
|
||||
<p class="MsoNormal" style="text-align:center"><span lang="ES"><img alt="Fases de la metodología experimental" height="93" src="figures/figura_3.png" style="width:424.5pt;height:69.75pt;display:block;margin:0 auto" width="566"/></span></p>
|
||||
<p class="Piedefoto-tabla" style="margin-left:0cm;text-align:center"><span lang="ES">Fuente: Elaboración propia.</span></p>
|
||||
@@ -5064,14 +5058,10 @@ docker compose -f docker-compose.tuning.doctr.yml down</pre>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Subconjunto de optimización</b>: El ajuste de hiperparámetros se realizó sobre 5 páginas (páginas 5-10), lo que contribuyó al sobreajuste observado en la validación del dataset completo.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Texto de referencia imperfecto</b>: El texto de referencia extraído de PDF puede contener errores en documentos con diseños complejos.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Parámetro fijo</b>: <span style="font-family:Consolas;font-size:10pt">text_det_unclip_ratio</span> quedó fijado en 0.0 durante todo el experimento por decisión de diseño inicial.</span></p>
|
||||
<h2 style="mso-list:l22 level2 lfo18"><span lang="ES" style="text-transform:none">Resumen del capítulo</span></h2>
|
||||
<p class="MsoNormal"><span lang="ES">Este capítulo ha establecido:</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span>Un objetivo general SMART: alcanzar CER < 2% mediante optimización de hiperparámetros (logrado en el mejor trial: 0.79%)</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">2.<span style="font-size:7pt"> </span>Cinco objetivos específicos medibles y alcanzables</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">3.<span style="font-size:7pt"> </span>Una metodología experimental en cinco fases claramente definidas</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">4.<span style="font-size:7pt"> </span>El espacio de búsqueda de hiperparámetros y la configuración de Ray Tune</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">5.<span style="font-size:7pt"> </span>Las limitaciones reconocidas del enfoque</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">El siguiente capítulo presenta el desarrollo específico de la contribución, incluyendo el benchmark comparativo de soluciones OCR, la optimización de hiperparámetros y el análisis de resultados.</span></p><p class="MsoNormal" style="margin-left:18.0pt;text-indent:-18.0pt;page-break-after:
|
||||
<h2 style="mso-list:l22 level2 lfo18"><span lang="ES" style="text-transform:none">Síntesis del capítulo</span></h2>
|
||||
<p class="MsoNormal"><span lang="ES">Los objetivos y la metodología definidos en este capítulo establecen el marco para la experimentación. El objetivo general —alcanzar un CER inferior al 2% mediante optimización de hiperparámetros— se descompone en cinco objetivos específicos que abarcan desde la comparativa inicial de soluciones hasta la validación final de la configuración optimizada.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">La metodología experimental en cinco fases garantiza un proceso sistemático y reproducible: preparación de un dataset de 45 páginas, benchmark comparativo de tres motores OCR, definición del espacio de búsqueda, ejecución de 64 trials con Ray Tune y Optuna, y validación de la configuración resultante. Las limitaciones metodológicas —tamaño del dataset, subconjunto de optimización reducido, texto de referencia automático— se reconocen explícitamente para contextualizar la interpretación de resultados.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">El capítulo siguiente pone en práctica esta metodología, presentando el desarrollo experimental completo con sus resultados y análisis.</span></p><p class="MsoNormal" style="margin-left:18.0pt;text-indent:-18.0pt;page-break-after:
|
||||
avoid;mso-outline-level:1;mso-list:l22 level1 lfo18"><span style="mso-bookmark:
|
||||
_Toc14106979"><span style="mso-bookmark:_Toc437515557"><a name="_Toc160619817"></a><a name="_Toc100036217"><span style="mso-bookmark:_Toc160619817"><?if !supportLists?><span lang="ES" style='font-size:18.0pt;mso-bidi-font-size:16.0pt;line-height:150%;
|
||||
font-family:"Calibri Light",sans-serif;mso-ascii-theme-font:major-latin;
|
||||
@@ -5092,16 +5082,13 @@ color:#0098CD;mso-font-kerning:16.0pt;mso-bidi-font-weight:bold'>arrollo
|
||||
específico de la contribución</span></span></span></span><span style="mso-bookmark:_Toc14106979"><span style="mso-bookmark:_Toc437515557"><span lang="ES" style='font-size:18.0pt;mso-bidi-font-size:16.0pt;line-height:150%;
|
||||
font-family:"Calibri Light",sans-serif;mso-ascii-theme-font:major-latin;
|
||||
mso-hansi-theme-font:major-latin;mso-bidi-font-family:"Times New Roman";
|
||||
color:#0098CD;mso-font-kerning:16.0pt;mso-bidi-font-weight:bold'><o:p></o:p></span></span></span></p><p class="MsoNormal"><span lang="ES">Este capítulo presenta el desarrollo completo del estudio comparativo y la optimización de hiperparámetros de sistemas OCR. Se estructura según el tipo de trabajo "Comparativa de soluciones" establecido por las instrucciones de UNIR: planteamiento de la comparativa, desarrollo de la comparativa, y discusión y análisis de resultados.</span></p>
|
||||
color:#0098CD;mso-font-kerning:16.0pt;mso-bidi-font-weight:bold'><o:p></o:p></span></span></span></p><p class="MsoNormal"><span lang="ES">El presente capítulo constituye el núcleo técnico de este trabajo fin de máster. Siguiendo la estructura de "Comparativa de soluciones" establecida por las instrucciones de UNIR, se desarrollan tres fases interrelacionadas: el planteamiento y ejecución del benchmark comparativo, el proceso de optimización de hiperparámetros mediante Ray Tune, y finalmente el análisis e interpretación de los resultados obtenidos.</span></p>
|
||||
<h2 style="mso-list:l22 level2 lfo18"><span lang="ES" style="text-transform:none">Planteamiento de la comparativa</span></h2>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Introducción</span></h3>
|
||||
<p class="MsoNormal"><span lang="ES">Esta sección presenta los resultados del estudio comparativo realizado entre tres soluciones OCR de código abierto: EasyOCR, PaddleOCR y DocTR. Los experimentos fueron documentados en el notebook <span style="font-family:Consolas;font-size:10pt">ocr_benchmark_notebook.ipynb</span> del repositorio. El objetivo es identificar el modelo base más prometedor para la posterior fase de optimización de hiperparámetros.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Antes de abordar la optimización de hiperparámetros, era necesario seleccionar el motor OCR que serviría como base para la experimentación. Para ello, se realizó un estudio comparativo entre tres soluciones de código abierto representativas del estado del arte: EasyOCR, PaddleOCR y DocTR. Los experimentos, documentados en el notebook <span style="font-family:Consolas;font-size:10pt">ocr_benchmark_notebook.ipynb</span> del repositorio, permitieron identificar el modelo más prometedor para la fase de optimización posterior.</span></p>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Identificación del Problema</span></h3>
|
||||
<p class="MsoNormal"><span lang="ES">El reconocimiento óptico de caracteres (OCR) en documentos académicos en español presenta desafíos específicos que no han sido ampliamente abordados en la literatura:</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Layouts complejos</b>: Los documentos académicos combinan texto corrido, tablas, listas numeradas, encabezados multinivel y notas al pie.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Caracteres específicos del español</b>: Acentos (á, é, í, ó, ú), eñe (ñ), diéresis (ü) y signos de puntuación invertidos (¿, ¡).</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Formato formal</b>: Tipografía profesional con múltiples fuentes, tamaños y estilos (negrita, cursiva).</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Calidad variable</b>: Documentos digitales de alta calidad pero con posibles artefactos de compresión PDF.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">El reconocimiento óptico de caracteres en documentos académicos en español presenta desafíos específicos que la literatura no ha abordado en profundidad. A diferencia de los benchmarks estándar en inglés, los documentos académicos hispanohablantes combinan características ortográficas propias —acentos, eñes, diéresis y signos de puntuación invertidos— con layouts estructuralmente complejos.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Los documentos académicos típicos incluyen texto corrido entremezclado con tablas, listas numeradas, encabezados multinivel y notas al pie, lo que complica significativamente la tarea de ordenación del texto reconocido. A esto se suma el uso de tipografía profesional con múltiples fuentes, tamaños y estilos (negrita, cursiva), que puede confundir a los modelos de reconocimiento. Aunque los PDFs digitales suelen tener alta calidad, pueden contener artefactos de compresión que degradan la legibilidad de caracteres pequeños o de bajo contraste.</span></p>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Alternativas Evaluadas</span></h3>
|
||||
<p class="MsoNormal"><span lang="ES">Se seleccionaron tres soluciones OCR de código abierto representativas del estado del arte:</span></p>
|
||||
<a name="_Ref_Tab20"></a><p class="MsoCaption"><b><span lang="ES" style="font-size:12.0pt;line-height:150%">Tabla <!--[if supportFields]><span style='mso-element:field-begin'></span> SEQ Tabla \* ARABIC <span style='mso-element:field-separator'></span><![endif]-->20<!--[if supportFields]><span style='mso-element:field-end'></span><![endif]-->.</span></b><span lang="ES" style="font-size:12.0pt;line-height:150%"> </span><i><span lang="ES" style="font-size:12.0pt;line-height:150%">Soluciones OCR evaluadas en el benchmark comparativo.</span></i></p>
|
||||
@@ -5204,23 +5191,13 @@ color:#0098CD;mso-font-kerning:16.0pt;mso-bidi-font-weight:bold'><o:p></o:p></sp
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Único tipo de documento</b>: Documentos académicos de UNIR únicamente. Otros tipos de documentos (facturas, formularios, contratos) podrían presentar resultados diferentes.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Ground truth automático</b>: El texto de referencia se extrajo programáticamente del PDF, lo cual puede introducir errores en layouts complejos donde el orden de lectura no es evidente.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Ejecución en CPU</b>: Todos los experimentos se realizaron en CPU, limitando la exploración de configuraciones que podrían beneficiarse de aceleración GPU.</span></p>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Resumen de la Sección</span></h3>
|
||||
<p class="MsoNormal"><span lang="ES">Esta sección ha presentado:</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span>La identificación del problema y los criterios de éxito establecidos</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">2.<span style="font-size:7pt"> </span>La configuración detallada del benchmark con tres soluciones OCR</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">3.<span style="font-size:7pt"> </span>Los resultados cuantitativos y cualitativos obtenidos</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">4.<span style="font-size:7pt"> </span>La justificación de la selección de PaddleOCR para optimización</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">5.<span style="font-size:7pt"> </span>Las limitaciones reconocidas del benchmark</span></p>
|
||||
<p class="MsoNormal"><span lang="ES"><b>Fuentes de datos utilizadas:</b></span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES"><span style="font-family:Consolas;font-size:10pt">ocr_benchmark_notebook.ipynb</span>: Código del benchmark</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">Documentación oficial de PaddleOCR</span></p>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Síntesis del Benchmark</span></h3>
|
||||
<p class="MsoNormal"><span lang="ES">El benchmark comparativo ha permitido identificar PaddleOCR como la solución más prometedora para la fase de optimización, gracias a su combinación de rendimiento base aceptable (~5-6% CER), alta configurabilidad del pipeline y documentación técnica completa. Sin embargo, el análisis también reveló limitaciones importantes: el tamaño reducido del benchmark (5 páginas), la restricción a un único tipo de documento, y la extracción automática del ground truth que puede introducir errores en layouts complejos. Estas limitaciones se tendrán en cuenta al interpretar los resultados de la fase de optimización.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES"><b>Fuentes de datos:</b> <span style="font-family:Consolas;font-size:10pt">ocr_benchmark_notebook.ipynb</span> y documentación oficial de PaddleOCR.</span></p>
|
||||
<h2 style="mso-list:l22 level2 lfo18"><span lang="ES" style="text-transform:none">Desarrollo de la comparativa: Optimización de hiperparámetros</span></h2>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Introducción</span></h3>
|
||||
<p class="MsoNormal"><span lang="ES">Esta sección describe el proceso de optimización de hiperparámetros de PaddleOCR utilizando Ray Tune con el algoritmo de búsqueda Optuna. Los experimentos fueron implementados en <a href="https://github.com/seryus/MastersThesis/blob/main/src/run_tuning.py"><span style="font-family:Consolas;font-size:10pt">src/run_tuning.py</span></a> con la librería de utilidades <a href="https://github.com/seryus/MastersThesis/blob/main/src/raytune_ocr.py"><span style="font-family:Consolas;font-size:10pt">src/raytune_ocr.py</span></a>, y los resultados se almacenaron en <a href="https://github.com/seryus/MastersThesis/tree/main/src/results"><span style="font-family:Consolas;font-size:10pt">src/results/</span></a>.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">La optimización de hiperparámetros representa una alternativa al fine-tuning tradicional que no requiere:</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">Acceso a GPU dedicada</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">Dataset de entrenamiento etiquetado</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">Modificación de los pesos del modelo</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Una vez seleccionado PaddleOCR como motor base, el siguiente paso fue explorar sistemáticamente su espacio de configuración para identificar los hiperparámetros que maximizan el rendimiento en documentos académicos en español. Para ello se empleó Ray Tune con el algoritmo de búsqueda Optuna, una combinación que permite explorar eficientemente espacios de búsqueda mixtos (parámetros continuos y categóricos). Los experimentos se implementaron en <a href="https://github.com/seryus/MastersThesis/blob/main/src/run_tuning.py"><span style="font-family:Consolas;font-size:10pt">src/run_tuning.py</span></a> con apoyo de la librería <a href="https://github.com/seryus/MastersThesis/blob/main/src/raytune_ocr.py"><span style="font-family:Consolas;font-size:10pt">src/raytune_ocr.py</span></a>, almacenándose los resultados en <a href="https://github.com/seryus/MastersThesis/tree/main/src/results"><span style="font-family:Consolas;font-size:10pt">src/results/</span></a>.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Esta aproximación ofrece ventajas significativas frente al fine-tuning tradicional: no requiere datasets de entrenamiento etiquetados, no modifica los pesos del modelo preentrenado, y puede ejecutarse con hardware de consumo cuando se dispone de aceleración GPU.</span></p>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Configuración del Experimento</span></h3>
|
||||
<h4><span lang="ES">Entorno de Ejecución</span></h4>
|
||||
<p class="MsoNormal"><span lang="ES">El experimento se ejecutó en el siguiente entorno:</span></p>
|
||||
@@ -5488,22 +5465,13 @@ Configuración óptima:
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span>El tiempo por página (~0.84 segundos) corresponde a ejecución con GPU (RTX 3060).</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">2.<span style="font-size:7pt"> </span>La variabilidad del tiempo es moderada (std = 0.53 s/página), con algunos trials más lentos debido a configuraciones con módulos de preprocesamiento activos.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">3.<span style="font-size:7pt"> </span>En comparación, la ejecución en CPU requiere ~69 segundos/página (82× más lento), lo que justifica el uso de GPU para optimización y producción.</span></p>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Resumen de la Sección</span></h3>
|
||||
<p class="MsoNormal"><span lang="ES">Esta sección ha presentado:</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Configuración del experimento</b>: Arquitectura Docker Compose, dataset de 45 páginas, espacio de búsqueda de 7 dimensiones, ejecución con GPU RTX 3060</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Resultados estadísticos</b>:</span></p>
|
||||
<p class="MsoNormal"><span lang="ES"> - CER medio: 2.30% (std: 2.20%) - CER mínimo (mejor trial): <b>0.79%</b> - 67.2% de trials con CER < 2%</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Hallazgos clave</b>:</span></p>
|
||||
<p class="MsoNormal"><span lang="ES"> - <span style="font-family:Consolas;font-size:10pt">textline_orientation=True</span> y <span style="font-family:Consolas;font-size:10pt">use_doc_orientation_classify=True</span> son críticos - <span style="font-family:Consolas;font-size:10pt">text_det_thresh</span> bajo (0.0462) optimiza la detección de texto - Ningún trial presentó fallos catastróficos (CER > 10%)</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Mejora en dataset completo</b>: CER reducido de 8.85% a 7.72% (reducción del 12.8%)</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Observación sobre generalización</b>: El mejor trial (0.79%) no generalizó completamente al dataset completo (7.72%), evidenciando sobreajuste al subconjunto de 5 páginas</span></p>
|
||||
<p class="MsoNormal"><span lang="ES"><b>Fuentes de datos:</b></span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES"><a href="https://github.com/seryus/MastersThesis/blob/main/src/run_tuning.py"><span style="font-family:Consolas;font-size:10pt">src/run_tuning.py</span></a>: Script principal de optimización</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES"><a href="https://github.com/seryus/MastersThesis/blob/main/src/raytune_ocr.py"><span style="font-family:Consolas;font-size:10pt">src/raytune_ocr.py</span></a>: Librería de utilidades Ray Tune</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES"><a href="https://github.com/seryus/MastersThesis/blob/main/src/results/raytune_paddle_results_20260119_122609.csv"><span style="font-family:Consolas;font-size:10pt">src/results/raytune_paddle_results_20260119_122609.csv</span></a>: Resultados CSV de los 64 trials</span></p>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Síntesis de la Optimización</span></h3>
|
||||
<p class="MsoNormal"><span lang="ES">Los 64 trials ejecutados con Ray Tune y aceleración GPU revelaron patrones claros en el comportamiento de PaddleOCR. El hallazgo más significativo es que los parámetros estructurales —<span style="font-family:Consolas;font-size:10pt">textline_orientation</span> y <span style="font-family:Consolas;font-size:10pt">use_doc_orientation_classify</span>— tienen mayor impacto que los umbrales numéricos: activarlos reduce el CER medio de 12.40% a 3.76%. En cuanto a umbrales, valores bajos de <span style="font-family:Consolas;font-size:10pt">text_det_thresh</span> (~0.05) benefician el rendimiento, mientras que <span style="font-family:Consolas;font-size:10pt">use_doc_unwarping</span> resulta innecesario para PDFs digitales.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">El mejor trial alcanzó un CER de 0.79%, cumpliendo el objetivo de CER < 2%. No obstante, la validación sobre el dataset completo de 45 páginas arrojó un CER de 7.72%, evidenciando sobreajuste al subconjunto de optimización de 5 páginas. Aun así, esto representa una mejora del 12.8% respecto al baseline (8.85%), demostrando el valor de la optimización sistemática incluso cuando la generalización es imperfecta.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES"><b>Fuentes de datos:</b> <a href="https://github.com/seryus/MastersThesis/blob/main/src/run_tuning.py"><span style="font-family:Consolas;font-size:10pt">src/run_tuning.py</span></a>, <a href="https://github.com/seryus/MastersThesis/blob/main/src/raytune_ocr.py"><span style="font-family:Consolas;font-size:10pt">src/raytune_ocr.py</span></a>, <a href="https://github.com/seryus/MastersThesis/blob/main/src/results/raytune_paddle_results_20260119_122609.csv"><span style="font-family:Consolas;font-size:10pt">src/results/raytune_paddle_results_20260119_122609.csv</span></a>.</span></p>
|
||||
<h2 style="mso-list:l22 level2 lfo18"><span lang="ES" style="text-transform:none">Discusión y análisis de resultados</span></h2>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Introducción</span></h3>
|
||||
<p class="MsoNormal"><span lang="ES">Esta sección presenta un análisis consolidado de los resultados obtenidos en las fases de benchmark comparativo y optimización de hiperparámetros. Se discuten las implicaciones prácticas, se evalúa el cumplimiento de los objetivos planteados y se identifican las limitaciones del estudio.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Los resultados obtenidos en las secciones anteriores requieren un análisis que trascienda los números individuales para comprender su significado práctico. En esta sección se consolidan los hallazgos del benchmark comparativo y la optimización de hiperparámetros, evaluando hasta qué punto se han cumplido los objetivos planteados y qué limitaciones condicionan la generalización de las conclusiones.</span></p>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Resumen Consolidado de Resultados</span></h3>
|
||||
<h4><span lang="ES">Progresión del Rendimiento</span></h4>
|
||||
<a name="_Ref_Tab44"></a><p class="MsoCaption"><b><span lang="ES" style="font-size:12.0pt;line-height:150%">Tabla <!--[if supportFields]><span style='mso-element:field-begin'></span> SEQ Tabla \* ARABIC <span style='mso-element:field-separator'></span><![endif]-->44<!--[if supportFields]><span style='mso-element:field-end'></span><![endif]-->.</span></b><span lang="ES" style="font-size:12.0pt;line-height:150%"> </span><i><span lang="ES" style="font-size:12.0pt;line-height:150%">Evolución del rendimiento a través del estudio.</span></i></p>
|
||||
@@ -5602,23 +5570,10 @@ Configuración óptima:
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Escritura manuscrita</b>: Requiere fine-tuning o modelos especializados.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Documentos muy degradados</b>: Escaneos de baja calidad o documentos históricos.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Requisitos de CER < 0.5%</b>: Puede requerir fine-tuning para alcanzar precisiones muy altas.</span></p>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Resumen del Capítulo</span></h3>
|
||||
<p class="MsoNormal"><span lang="ES">Este capítulo ha presentado el desarrollo completo de la contribución:</span></p>
|
||||
<p class="MsoNormal"><span lang="ES"><b>Planteamiento de la comparativa:</b></span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">Evaluación de EasyOCR, PaddleOCR y DocTR</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">Selección de PaddleOCR por su configurabilidad</span></p>
|
||||
<p class="MsoNormal"><span lang="ES"><b>Desarrollo de la comparativa:</b></span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">64 trials de Ray Tune con Optuna usando GPU RTX 3060</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">Identificación de <span style="font-family:Consolas;font-size:10pt">textline_orientation</span>, <span style="font-family:Consolas;font-size:10pt">use_doc_orientation_classify</span> y <span style="font-family:Consolas;font-size:10pt">text_det_thresh</span> como críticos</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">CER mínimo alcanzado en trial individual: <b>0.79%</b></span></p>
|
||||
<p class="MsoNormal"><span lang="ES"><b>Discusión y análisis:</b></span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">Mejora del CER en dataset completo de 8.85% a 7.72% (reducción del <b>12.8%</b>)</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">Mejor trial: 0.79% CER (cumple objetivo CER < 2%)</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">Identificación de sobreajuste y recomendaciones prácticas</span></p>
|
||||
<p class="MsoNormal"><span lang="ES"><b>Resultados principales</b>:</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">El objetivo de CER < 2% se cumple en el mejor trial (0.79%)</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">La generalización al dataset completo (7.72%) revela sobreajuste que requiere trabajo futuro</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">La optimización de hiperparámetros con GPU es viable y eficiente (82× más rápido que CPU)</span></p>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Síntesis del Capítulo</span></h3>
|
||||
<p class="MsoNormal"><span lang="ES">A lo largo de este capítulo se ha desarrollado el proceso completo de evaluación y optimización de sistemas OCR para documentos académicos en español. El benchmark comparativo inicial permitió seleccionar PaddleOCR como motor base gracias a su combinación de rendimiento y configurabilidad. La posterior optimización con Ray Tune y Optuna, ejecutada sobre 64 trials con aceleración GPU, identificó los parámetros críticos para maximizar el rendimiento: <span style="font-family:Consolas;font-size:10pt">textline_orientation</span>, <span style="font-family:Consolas;font-size:10pt">use_doc_orientation_classify</span> y <span style="font-family:Consolas;font-size:10pt">text_det_thresh</span>.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Los resultados cuantifican tanto los logros como las limitaciones del enfoque. El mejor trial individual alcanzó un CER de 0.79%, cumpliendo holgadamente el objetivo de CER < 2%. Sin embargo, la validación sobre el dataset completo de 45 páginas reveló un CER de 7.72%, lo que representa una mejora del 12.8% respecto al baseline (8.85%) pero evidencia sobreajuste al subconjunto de optimización. Esta observación es valiosa: indica que futuros trabajos deberían emplear subconjuntos de optimización más representativos o aplicar técnicas de regularización.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Desde el punto de vista práctico, la infraestructura dockerizada desarrollada y la aceleración GPU (82× más rápida que CPU) demuestran la viabilidad de esta metodología tanto para experimentación como para despliegue en producción.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES"><b>Fuentes de datos:</b></span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES"><a href="https://github.com/seryus/MastersThesis/blob/main/src/run_tuning.py"><span style="font-family:Consolas;font-size:10pt">src/run_tuning.py</span></a>: Script principal de optimización</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES"><a href="https://github.com/seryus/MastersThesis/blob/main/src/results/raytune_paddle_results_20260119_122609.csv"><span style="font-family:Consolas;font-size:10pt">src/results/raytune_paddle_results_20260119_122609.csv</span></a>: Resultados CSV de PaddleOCR</span></p>
|
||||
@@ -5662,76 +5617,55 @@ Configuración óptima:
|
||||
<p class="MsoNormal"><span lang="ES">Esta validación demuestra que la configuración optimizada mediante Ray Tune mejora la precisión (CER: 8.85% → 7.72% en dataset completo, 0.79% en mejor trial individual) y, combinada con aceleración GPU, resulta prácticamente aplicable en escenarios de producción real.</span></p><h1 style="mso-list:l22 level1 lfo18"><a name="_Toc160619818"><?if !supportLists?><span lang="ES" style='mso-fareast-font-family:"Calibri Light";mso-fareast-theme-font:
|
||||
major-latin;mso-bidi-font-family:"Calibri Light";mso-bidi-theme-font:major-latin'><span style="mso-list:Ignore">5.<span style='font:7.0pt "Times New Roman"'>
|
||||
</span></span></span><?endif?><span lang="ES" style="text-transform:none">Conclusiones
|
||||
y trabajo futuro</span></a></h1><p class="MsoNormal"><span lang="ES">Este capítulo resume las principales conclusiones del trabajo, evalúa el grado de cumplimiento de los objetivos planteados y propone líneas de trabajo futuro que permitirían ampliar y profundizar los resultados obtenidos.</span></p>
|
||||
y trabajo futuro</span></a></h1><p class="MsoNormal"><span lang="ES">A lo largo de este trabajo se ha explorado la optimización de hiperparámetros como estrategia para mejorar el rendimiento de sistemas OCR sin necesidad de reentrenamiento. Las siguientes secciones evalúan el grado de cumplimiento de los objetivos planteados, sintetizan los hallazgos más relevantes y proponen direcciones para investigación futura.</span></p>
|
||||
<h2 style="mso-list:l22 level2 lfo18"><span lang="ES" style="text-transform:none">Conclusiones</span></h2>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Conclusiones Generales</span></h3>
|
||||
<p class="MsoNormal"><span lang="ES">Este Trabajo Fin de Máster ha demostrado que es posible mejorar significativamente el rendimiento de sistemas OCR preentrenados mediante optimización sistemática de hiperparámetros, utilizando una infraestructura dockerizada con aceleración GPU para facilitar la experimentación.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Los resultados obtenidos confirman que la optimización sistemática de hiperparámetros constituye una alternativa viable al fine-tuning para mejorar sistemas OCR preentrenados. La infraestructura dockerizada con aceleración GPU desarrollada en este trabajo no solo facilita la experimentación reproducible, sino que reduce drásticamente los tiempos de ejecución, haciendo viable la exploración exhaustiva de espacios de configuración.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">El objetivo principal del trabajo era alcanzar un CER inferior al 2% en documentos académicos en español. Los resultados obtenidos se resumen a continuación:</span></p>
|
||||
<a name="_Ref_Tab55"></a><p class="MsoCaption"><b><span lang="ES" style="font-size:12.0pt;line-height:150%">Tabla <!--[if supportFields]><span style='mso-element:field-begin'></span> SEQ Tabla \* ARABIC <span style='mso-element:field-separator'></span><![endif]-->55<!--[if supportFields]><span style='mso-element:field-end'></span><![endif]-->.</span></b><span lang="ES" style="font-size:12.0pt;line-height:150%"> </span><i><span lang="ES" style="font-size:12.0pt;line-height:150%">Cumplimiento del objetivo de CER.</span></i></p>
|
||||
<div align="center"><table align="center" border="1" cellpadding="0" cellspacing="0" class="MsoTableGrid" style="border-collapse:collapse;margin-left:auto;margin-right:auto;mso-table-style-name:'Plain Table 1'"><tr><td style="border-top:solid windowtext 1.0pt;border-bottom:solid windowtext 1.0pt;border-left:none;border-right:none;padding:5px"><p class="MsoNormal" style="margin:0;text-align:center"><b><span lang="ES">Métrica</span></b></p></td><td style="border-top:solid windowtext 1.0pt;border-bottom:solid windowtext 1.0pt;border-left:none;border-right:none;padding:5px"><p class="MsoNormal" style="margin:0;text-align:center"><b><span lang="ES">Objetivo</span></b></p></td><td style="border-top:solid windowtext 1.0pt;border-bottom:solid windowtext 1.0pt;border-left:none;border-right:none;padding:5px"><p class="MsoNormal" style="margin:0;text-align:center"><b><span lang="ES">Mejor Trial</span></b></p></td><td style="border-top:solid windowtext 1.0pt;border-bottom:solid windowtext 1.0pt;border-left:none;border-right:none;padding:5px"><p class="MsoNormal" style="margin:0;text-align:center"><b><span lang="ES">Dataset Completo</span></b></p></td><td style="border-top:solid windowtext 1.0pt;border-bottom:solid windowtext 1.0pt;border-left:none;border-right:none;padding:5px"><p class="MsoNormal" style="margin:0;text-align:center"><b><span lang="ES">Cumplimiento</span></b></p></td></tr><tr><td style="border-top:none;border-bottom:solid windowtext 1.0pt;border-left:none;border-right:none;padding:5px"><p class="MsoNormal" style="margin:0;text-align:center"><span lang="ES">CER</span></p></td><td style="border-top:none;border-bottom:solid windowtext 1.0pt;border-left:none;border-right:none;padding:5px"><p class="MsoNormal" style="margin:0;text-align:center"><span lang="ES">< 2%</span></p></td><td style="border-top:none;border-bottom:solid windowtext 1.0pt;border-left:none;border-right:none;padding:5px"><p class="MsoNormal" style="margin:0;text-align:center"><span lang="ES"><b>0.79%</b></span></p></td><td style="border-top:none;border-bottom:solid windowtext 1.0pt;border-left:none;border-right:none;padding:5px"><p class="MsoNormal" style="margin:0;text-align:center"><span lang="ES"><b>7.72%</b></span></p></td><td style="border-top:none;border-bottom:solid windowtext 1.0pt;border-left:none;border-right:none;padding:5px"><p class="MsoNormal" style="margin:0;text-align:center"><span lang="ES">✓ Parcial</span></p></td></tr></table></div>
|
||||
<p class="Piedefoto-tabla" style="margin-left:0cm"><span lang="ES">Fuente: Elaboración propia.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES"><o:p> </o:p></span></p>
|
||||
<p class="MsoQuote"><i><span lang="ES"><b>Nota:</b> El objetivo de CER < 2% se cumple en el mejor trial individual (0.79%, 5 páginas). La validación sobre el conjunto de datos completo (45 páginas) muestra un CER de 7.72%, evidenciando sobreajuste al subconjunto de optimización. Esta diferencia se analiza en detalle en el Capítulo 4.</span></i></p>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Conclusiones Específicas</span></h3>
|
||||
<p class="MsoNormal"><span lang="ES"><b>Respecto a OE1 (Comparativa de soluciones OCR)</b>:</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">Se evaluaron tres soluciones OCR de código abierto: EasyOCR, PaddleOCR (PP-OCRv5) y DocTR</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">PaddleOCR demostró el mejor rendimiento base para documentos en español</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">La configurabilidad del pipeline de PaddleOCR lo hace idóneo para optimización</span></p>
|
||||
<p class="MsoNormal"><span lang="ES"><b>Respecto a OE2 (Preparación del conjunto de datos)</b>:</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">Se construyó un conjunto de datos estructurado con 45 páginas de documentos académicos</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">La clase <span style="font-family:Consolas;font-size:10pt">ImageTextDataset</span> facilita la carga de pares imagen-texto</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">El texto de referencia se extrajo automáticamente del PDF mediante PyMuPDF</span></p>
|
||||
<p class="MsoNormal"><span lang="ES"><b>Respecto a OE3 (Identificación de hiperparámetros críticos)</b>:</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">El parámetro <span style="font-family:Consolas;font-size:10pt">textline_orientation</span> es el más influyente, siendo crítico para obtener buenos resultados</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">El parámetro <span style="font-family:Consolas;font-size:10pt">use_doc_orientation_classify</span> demostró impacto positivo en la configuración GPU</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">El umbral <span style="font-family:Consolas;font-size:10pt">text_det_thresh</span> presenta correlación negativa moderada (-0.52) con el CER</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">El parámetro <span style="font-family:Consolas;font-size:10pt">use_doc_unwarping</span> no aporta mejora en documentos digitales</span></p>
|
||||
<p class="MsoNormal"><span lang="ES"><b>Respecto a OE4 (Optimización con Ray Tune)</b>:</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">Se ejecutaron 64 trials con el algoritmo OptunaSearch y aceleración GPU</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">El tiempo total del experimento fue aproximadamente 1.5 horas (con GPU RTX 3060)</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">La arquitectura basada en contenedores Docker permitió superar incompatibilidades entre Ray y los motores OCR, facilitando además la portabilidad y reproducibilidad</span></p>
|
||||
<p class="MsoNormal"><span lang="ES"><b>Respecto a OE5 (Validación de la configuración)</b>:</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">Se validó la configuración óptima sobre el conjunto de datos completo de 45 páginas</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">El mejor trial individual alcanzó un CER de 0.79% (precisión del 99.21%)</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">En el conjunto de datos completo se obtuvo una mejora del 12.8% en CER (8.85% → 7.72%)</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES">La diferencia entre resultados de trial y validación completa revela sobreajuste al subconjunto de optimización</span></p>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Cumplimiento de los Objetivos Específicos</span></h3>
|
||||
<p class="MsoNormal"><span lang="ES">La evaluación comparativa de soluciones OCR (OE1) reveló diferencias significativas entre las tres alternativas analizadas. De las tres soluciones de código abierto evaluadas —EasyOCR, PaddleOCR (PP-OCRv5) y DocTR—, PaddleOCR demostró el mejor rendimiento base para documentos en español. Además, su arquitectura modular y la amplia configurabilidad de su pipeline lo convierten en el candidato idóneo para optimización mediante ajuste de hiperparámetros.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">En cuanto a la preparación del conjunto de datos (OE2), se construyó un corpus estructurado con 45 páginas de documentos académicos de UNIR. La implementación de la clase <span style="font-family:Consolas;font-size:10pt">ImageTextDataset</span> permite cargar de forma eficiente pares imagen-texto, mientras que el texto de referencia se extrajo automáticamente del PDF original mediante PyMuPDF, garantizando así la consistencia entre las imágenes y sus transcripciones esperadas.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">El análisis de hiperparámetros (OE3) arrojó resultados particularmente reveladores. El parámetro <span style="font-family:Consolas;font-size:10pt">textline_orientation</span> emergió como el factor más influyente, resultando crítico para obtener buenos resultados en documentos con diseños complejos. Asimismo, <span style="font-family:Consolas;font-size:10pt">use_doc_orientation_classify</span> demostró un impacto positivo en la configuración con GPU. Por otra parte, el umbral <span style="font-family:Consolas;font-size:10pt">text_det_thresh</span> presenta una correlación negativa moderada (-0.52) con el CER, lo que indica que valores más bajos tienden a mejorar el rendimiento, aunque con un límite inferior por debajo del cual el sistema falla catastróficamente. Cabe destacar que <span style="font-family:Consolas;font-size:10pt">use_doc_unwarping</span> no aporta mejora alguna en documentos digitales, ya que estos no presentan las deformaciones físicas para las que fue diseñado este módulo.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">La experimentación con Ray Tune (OE4) se completó satisfactoriamente mediante 64 trials ejecutados con el algoritmo OptunaSearch y aceleración GPU. El tiempo total del experimento —aproximadamente 1.5 horas con una GPU RTX 3060— demuestra la viabilidad práctica de esta aproximación. La arquitectura basada en contenedores Docker resultó esencial para superar las incompatibilidades entre Ray y los motores OCR, al tiempo que garantiza la portabilidad y reproducibilidad de los experimentos.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Finalmente, la validación de la configuración óptima (OE5) se realizó sobre el conjunto de datos completo de 45 páginas. El mejor trial individual alcanzó un CER de 0.79%, equivalente a una precisión del 99.21%. Sin embargo, la evaluación sobre el conjunto de datos completo arrojó un CER de 7.72%, lo que representa una mejora del 12.8% respecto al baseline (8.85%), pero queda lejos del resultado del mejor trial. Esta diferencia revela un sobreajuste al subconjunto de optimización de 5 páginas, un fenómeno que se analiza en detalle en la sección de limitaciones.</span></p>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Hallazgos Clave</span></h3>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Arquitectura sobre umbrales</b>: Un único parámetro booleano (<span style="font-family:Consolas;font-size:10pt">textline_orientation</span>) tiene más impacto que todos los umbrales continuos combinados.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Umbrales mínimos efectivos</b>: Valores de <span style="font-family:Consolas;font-size:10pt">text_det_thresh</span> < 0.1 causan fallos catastróficos (CER >40%).</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Simplicidad para documentos digitales</b>: Para documentos PDF digitales (no escaneados), los módulos de corrección de orientación y deformación son innecesarios.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Optimización sin fine-tuning</b>: Se puede mejorar el rendimiento de modelos preentrenados mediante ajuste de hiperparámetros de inferencia, aunque la generalización a conjuntos de datos más amplios requiere validación cuidadosa.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">El hallazgo más significativo de este trabajo es que las decisiones arquitectónicas tienen mayor impacto que los umbrales numéricos. Un único parámetro booleano —<span style="font-family:Consolas;font-size:10pt">textline_orientation</span>— influye más en el rendimiento final que todos los umbrales continuos combinados. Este resultado sugiere que, al optimizar sistemas OCR, conviene priorizar la exploración de configuraciones estructurales antes de ajustar finamente los valores numéricos.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">No obstante, los umbrales presentan límites operativos que deben respetarse. Valores de <span style="font-family:Consolas;font-size:10pt">text_det_thresh</span> inferiores a 0.1 provocan fallos catastróficos, con tasas de error que superan el 40%. Este comportamiento indica la existencia de regiones del espacio de hiperparámetros que deben evitarse, lo cual tiene implicaciones para el diseño de espacios de búsqueda en futuros experimentos.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Otro hallazgo relevante es la innecesariedad de ciertos módulos para documentos digitales. Los PDF generados directamente desde procesadores de texto no presentan las deformaciones físicas —arrugas, curvaturas, rotaciones— para las que fueron diseñados los módulos de corrección. En estos casos, desactivar <span style="font-family:Consolas;font-size:10pt">use_doc_unwarping</span> no solo simplifica el pipeline, sino que puede mejorar el rendimiento al evitar procesamientos innecesarios.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Finalmente, los resultados demuestran que es posible mejorar modelos preentrenados mediante ajuste exclusivo de hiperparámetros de inferencia, sin necesidad de reentrenamiento. Sin embargo, esta aproximación requiere validación cuidadosa, ya que las configuraciones optimizadas sobre subconjuntos pequeños pueden no generalizar a conjuntos de datos más amplios o diversos.</span></p>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Contribuciones del Trabajo</span></h3>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Metodología reproducible</b>: Se documenta un proceso completo de optimización de hiperparámetros OCR con Ray Tune + Optuna.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Análisis de hiperparámetros de PaddleOCR</b>: Se cuantifica el impacto de cada parámetro configurable mediante correlaciones y análisis comparativo.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Configuración óptima para español</b>: Se proporciona una configuración validada para documentos académicos en español.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Código fuente</b>: Todo el código está disponible en el repositorio GitHub para reproducción y extensión.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">La principal contribución de este trabajo es una metodología reproducible para la optimización de hiperparámetros OCR. El proceso completo —desde la preparación del conjunto de datos hasta la validación de la configuración óptima— queda documentado y es replicable mediante las herramientas Ray Tune y Optuna.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">En segundo lugar, el análisis sistemático de los hiperparámetros de PaddleOCR constituye una contribución al conocimiento disponible sobre este motor OCR. Mediante el cálculo de correlaciones y análisis comparativo, se cuantifica el impacto de cada parámetro configurable, información que puede orientar futuros trabajos de optimización.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Como resultado práctico, se aporta una configuración validada específicamente para documentos académicos en español. Aunque la generalización a otros tipos de documentos requiere validación adicional, esta configuración representa un punto de partida sólido para aplicaciones en el ámbito hispanohablante.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Por último, todo el código fuente, las imágenes Docker y los datos experimentales están disponibles públicamente en el repositorio GitHub del proyecto, facilitando así la reproducción, verificación y extensión de este trabajo por parte de otros investigadores.</span></p>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Limitaciones del Trabajo</span></h3>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Tipo de documento único</b>: Los experimentos se realizaron únicamente sobre documentos académicos de UNIR. La generalización a otros tipos de documentos requiere validación adicional.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Tamaño del conjunto de datos</b>: 45 páginas es un corpus limitado para conclusiones estadísticamente robustas.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Texto de referencia automático</b>: La extracción automática del texto de referencia puede introducir errores en diseños complejos.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Sobreajuste al subconjunto de optimización</b>: El ajuste sobre 5 páginas no generalizó completamente al conjunto de datos de 45 páginas, resultando en un CER de 7.72% frente al 0.79% del mejor trial.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Parámetro no explorado</b>: <span style="font-family:Consolas;font-size:10pt">text_det_unclip_ratio</span> permaneció fijo en 0.0 durante todo el experimento.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Hardware de consumo</b>: Aunque la GPU RTX 3060 proporcionó una aceleración de 82× respecto a CPU, hardware empresarial podría ofrecer mejor rendimiento.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Es necesario reconocer varias limitaciones que condicionan el alcance de las conclusiones presentadas. En primer lugar, todos los experimentos se realizaron sobre un único tipo de documento: textos académicos de UNIR. La generalización a otros formatos —facturas, formularios, documentos manuscritos— requeriría validación adicional con conjuntos de datos específicos.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">El tamaño del corpus constituye otra limitación relevante. Con 45 páginas, el conjunto de datos es modesto para extraer conclusiones estadísticamente robustas. Además, el subconjunto de optimización de tan solo 5 páginas resultó insuficiente para evitar el sobreajuste, como evidencia la brecha entre el CER del mejor trial (0.79%) y el resultado sobre el conjunto completo (7.72%).</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Desde el punto de vista metodológico, la extracción automática del texto de referencia mediante PyMuPDF puede introducir errores en documentos con diseños complejos, donde el orden de lectura no es evidente. Asimismo, el parámetro <span style="font-family:Consolas;font-size:10pt">text_det_unclip_ratio</span> permaneció fijo en 0.0 durante todo el experimento, dejando inexplorada una dimensión potencialmente relevante del espacio de hiperparámetros.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Por último, aunque la GPU RTX 3060 utilizada proporcionó una aceleración de 82× respecto a la ejecución en CPU, se trata de hardware de consumo. Equipamiento empresarial con mayor capacidad de VRAM permitiría ejecutar múltiples servicios OCR simultáneamente y explorar espacios de búsqueda más amplios en menos tiempo.</span></p>
|
||||
<h2 style="mso-list:l22 level2 lfo18"><span lang="ES" style="text-transform:none">Líneas de trabajo futuro</span></h2>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Extensiones Inmediatas</span></h3>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Validación cruzada</b>: Evaluar la configuración óptima en otros tipos de documentos en español (facturas, formularios, textos manuscritos).</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Subconjunto de optimización más amplio</b>: Utilizar un subconjunto mayor (15-20 páginas) para el ajuste de hiperparámetros y reducir el sobreajuste.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Exploración de <span style="font-family:Consolas;font-size:10pt">text_det_unclip_ratio</span></b>: Incluir este parámetro en el espacio de búsqueda.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Conjunto de datos ampliado</b>: Construir un corpus más amplio y diverso de documentos en español.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Las limitaciones identificadas sugieren varias extensiones que podrían abordarse a corto plazo. La más urgente es la validación cruzada de la configuración óptima en otros tipos de documentos en español, como facturas, formularios administrativos o textos manuscritos. Esta validación revelaría el grado de transferibilidad de los hallazgos actuales.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Para abordar el problema del sobreajuste, futuros experimentos deberían utilizar un subconjunto de optimización más amplio. Un conjunto de 15-20 páginas representativas reduciría la varianza y mejoraría la generalización de las configuraciones encontradas. Complementariamente, sería conveniente construir un corpus más amplio y diverso de documentos en español, incluyendo diferentes tipografías, diseños y calidades de imagen.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Desde el punto de vista técnico, queda pendiente la exploración del parámetro <span style="font-family:Consolas;font-size:10pt">text_det_unclip_ratio</span>, que permaneció fijo en este trabajo. Incluirlo en el espacio de búsqueda podría revelar interacciones con otros parámetros actualmente desconocidas.</span></p>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Líneas de Investigación</span></h3>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Transfer learning de hiperparámetros</b>: Investigar si las configuraciones óptimas para un tipo de documento transfieren a otros dominios.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Optimización multi-objetivo</b>: Considerar simultáneamente CER, WER y tiempo de inferencia como objetivos.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>AutoML para OCR</b>: Aplicar técnicas de AutoML más avanzadas (Neural Architecture Search, meta-learning).</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Comparación con fine-tuning</b>: Cuantificar la brecha de rendimiento entre optimización de hiperparámetros y fine-tuning real.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">En un horizonte más amplio, surgen varias líneas de investigación prometedoras. Una de las más interesantes es el estudio del transfer learning de hiperparámetros: ¿las configuraciones óptimas para documentos académicos transfieren a otros dominios, o cada tipo de documento requiere optimización específica? La respuesta a esta pregunta tiene implicaciones prácticas significativas.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Otra dirección valiosa es la optimización multi-objetivo, que considere simultáneamente CER, WER y tiempo de inferencia. En aplicaciones reales, la precisión máxima no siempre es el único criterio; a menudo existe un compromiso entre calidad y velocidad que debe gestionarse explícitamente.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Técnicas de AutoML más avanzadas, como Neural Architecture Search o meta-learning, podrían automatizar aún más el proceso de configuración. Por último, una comparación rigurosa entre optimización de hiperparámetros y fine-tuning real cuantificaría la brecha de rendimiento entre ambas aproximaciones y ayudaría a decidir cuándo merece la pena el esfuerzo adicional del reentrenamiento.</span></p>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Aplicaciones Prácticas</span></h3>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Herramienta de configuración automática</b>: Desarrollar una herramienta que determine automáticamente la configuración óptima para un nuevo tipo de documento.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Integración en pipelines de producción</b>: Implementar la configuración optimizada en sistemas reales de procesamiento documental.</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES">1.<span style="font-size:7pt"> </span><b>Benchmark público</b>: Publicar un benchmark de OCR para documentos en español que facilite la comparación de soluciones.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Los resultados de este trabajo abren camino a varias aplicaciones prácticas. Una herramienta de configuración automática podría analizar un pequeño conjunto de documentos de muestra y determinar la configuración óptima de PaddleOCR para ese tipo específico de documento, democratizando el acceso a estas técnicas de optimización.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">La integración de las configuraciones optimizadas en pipelines de producción representa otra aplicación natural. Los sistemas de procesamiento documental en organizaciones que manejan grandes volúmenes de documentos en español podrían beneficiarse directamente de los hallazgos de este trabajo.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">Finalmente, la publicación de un benchmark público de OCR para documentos en español facilitaría la comparación objetiva de diferentes soluciones. La comunidad hispanohablante carece actualmente de recursos comparables a los disponibles para otros idiomas, y este trabajo podría contribuir a llenar ese vacío.</span></p>
|
||||
<h3 style="mso-list:l22 level3 lfo18"><span lang="ES" style="text-transform:none">Reflexión Final</span></h3>
|
||||
<p class="MsoNormal"><span lang="ES">Este trabajo demuestra que la optimización de hiperparámetros representa una alternativa viable al fine-tuning para mejorar sistemas OCR, especialmente cuando se dispone de modelos preentrenados para el idioma objetivo.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">La metodología propuesta es reproducible, los resultados son cuantificables, y las conclusiones son aplicables a escenarios reales de procesamiento documental. Aunque el objetivo de CER < 2% se alcanzó en el mejor trial individual (0.79%), la validación sobre el conjunto de datos completo (7.72%) revela la importancia de utilizar subconjuntos de optimización representativos y de validar rigurosamente la generalización.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">La infraestructura dockerizada desarrollada facilita la reproducibilidad de los experimentos y la evaluación sistemática de configuraciones OCR. La aceleración de 82× proporcionada por GPU hace viable la exploración exhaustiva de espacios de hiperparámetros en tiempos razonables.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">El código fuente, las imágenes Docker y los datos experimentales están disponibles públicamente en el <a href="https://github.com/seryus/MastersThesis">repositorio del proyecto</a> para facilitar la reproducción y extensión de este trabajo.</span></p><p class="Ttulo1sinnumerar"><a name="_Toc160619821"><span lang="ES">Referencias
|
||||
<p class="MsoNormal"><span lang="ES">En síntesis, este trabajo ha demostrado que la optimización de hiperparámetros representa una alternativa viable al fine-tuning para mejorar sistemas OCR, especialmente cuando se dispone de modelos preentrenados para el idioma objetivo y recursos limitados de tiempo o datos etiquetados.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">La metodología propuesta cumple los requisitos de reproducibilidad científica: los experimentos pueden replicarse, los resultados son cuantificables y las conclusiones son aplicables a escenarios reales de procesamiento documental. Sin embargo, la experiencia también ha puesto de manifiesto la importancia de diseñar cuidadosamente los experimentos de optimización. Aunque el objetivo de CER inferior al 2% se alcanzó en el mejor trial individual (0.79%), la validación sobre el conjunto de datos completo (7.72%) revela que el tamaño y representatividad del subconjunto de optimización son factores críticos que no deben subestimarse.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">La infraestructura dockerizada desarrollada constituye una aportación práctica que trasciende los resultados numéricos. Al encapsular los motores OCR en contenedores independientes, se resuelven problemas de compatibilidad entre dependencias y se garantiza que cualquier investigador pueda reproducir exactamente las condiciones experimentales. La aceleración de 82× proporcionada por GPU transforma lo que sería un experimento de días en uno de horas, haciendo viable la exploración exhaustiva de espacios de hiperparámetros con hardware de consumo.</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">El código fuente, las imágenes Docker y los datos experimentales están disponibles públicamente en el <a href="https://github.com/seryus/MastersThesis">repositorio del proyecto</a>. Esta apertura busca facilitar no solo la reproducción de los resultados, sino también la extensión de este trabajo hacia nuevos tipos de documentos, idiomas o motores OCR.</span></p><p class="Ttulo1sinnumerar"><a name="_Toc160619821"><span lang="ES">Referencias
|
||||
bibliográficas</span></a></p><p class="MsoBibliography" style="margin-left:36.0pt;text-indent:-36.0pt"><span lang="ES">Akiba, T., Sano, S., Yanase, T., Ohta, T., & Koyama, M. (2019). Optuna: A next-generation hyperparameter optimization framework. <i>Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining</i>, 2623-2631. https://doi.org/10.1145/3292500.3330701</span></p>
|
||||
<p class="MsoBibliography" style="margin-left:36.0pt;text-indent:-36.0pt"><span lang="ES">Baek, Y., Lee, B., Han, D., Yun, S., & Lee, H. (2019). Character region awareness for text detection. <i>Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition</i>, 9365-9374. https://doi.org/10.1109/CVPR.2019.00959</span></p>
|
||||
<p class="MsoBibliography" style="margin-left:36.0pt;text-indent:-36.0pt"><span lang="ES">Bergstra, J., & Bengio, Y. (2012). Random search for hyper-parameter optimization. <i>Journal of Machine Learning Research</i>, 13(1), 281-305. https://jmlr.org/papers/v13/bergstra12a.html</span></p>
|
||||
@@ -5758,8 +5692,9 @@ bibliográficas</span></a></p><p class="MsoBibliography" style="margin-left:36.0
|
||||
<p class="MsoBibliography" style="margin-left:36.0pt;text-indent:-36.0pt"><span lang="ES">Zoph, B., & Le, Q. V. (2017). Neural architecture search with reinforcement learning. <i>International Conference on Learning Representations (ICLR)</i>. https://arxiv.org/abs/1611.01578</span></p>
|
||||
<p class="Anexo" style="mso-list:l2 level1 lfo23"><a name="_Toc160619822"><?if !supportLists?><span lang="ES" style='mso-fareast-font-family:"Calibri Light";mso-fareast-theme-font:
|
||||
major-latin;mso-bidi-font-family:"Calibri Light";mso-bidi-theme-font:major-latin'><span style="mso-list:Ignore">Anexo A.<span style='font:7.0pt "Times New Roman"'>
|
||||
</span></span></span><?endif?><span lang="ES">Código fuente y datos analizados</span></a></p><h2 style="mso-list:l22 level2 lfo18"><span lang="ES" style="text-transform:none">A.1 Repositorio del Proyecto</span></h2>
|
||||
<p class="MsoNormal"><span lang="ES">El código fuente completo y los datos utilizados en este trabajo están disponibles en el siguiente repositorio:</span></p>
|
||||
</span></span></span><?endif?><span lang="ES">Código fuente y datos analizados</span></a></p><p class="MsoNormal"><span lang="ES">Este anexo proporciona la información técnica necesaria para reproducir los experimentos descritos en este trabajo. Se incluyen las instrucciones de instalación, configuración de los servicios OCR dockerizados, ejecución de los scripts de optimización y acceso a los resultados experimentales.</span></p>
|
||||
<h2 style="mso-list:l22 level2 lfo18"><span lang="ES" style="text-transform:none">A.1 Repositorio del Proyecto</span></h2>
|
||||
<p class="MsoNormal"><span lang="ES">Todo el código fuente y los datos utilizados en este trabajo están disponibles públicamente en el siguiente repositorio:</span></p>
|
||||
<p class="MsoNormal"><span lang="ES"><b>URL del repositorio:</b> https://github.com/seryus/MastersThesis</span></p>
|
||||
<p class="MsoNormal"><span lang="ES">El repositorio incluye:</span></p>
|
||||
<p class="MsoListParagraphCxSpMiddle" style="margin-left:36pt;text-indent:-18pt"><span lang="ES" style="font-family:Symbol">·</span><span lang="ES" style="font-size:7pt"> </span><span lang="ES"><b>Servicios OCR dockerizados</b>: PaddleOCR, DocTR, EasyOCR con soporte GPU</span></p>
|
||||
|
||||
Reference in New Issue
Block a user