Best CER: 0.007884 (0.79%)
@@ -5400,7 +5395,7 @@ Configuración óptima:
Parámetro | Valor óptimo | Valor por defecto | Cambio |
textline_orientation | True | False | Activado |
use_doc_orientation_classify | True | False | Activado |
use_doc_unwarping | False | False | Sin cambio |
text_det_thresh | 0.0462 | 0.3 | -0.254 |
text_det_box_thresh | 0.4862 | 0.6 | -0.114 |
text_det_unclip_ratio | 0.0 | 1.5 | -1.5 (fijado) |
text_rec_score_thresh | 0.5658 | 0.5 | +0.066 |
Fuente: src/results/raytune_paddle_results_20260119_122609.csv.
-Análisis de Correlación
+Análisis de Correlación
Se calculó la correlación de Pearson entre los parámetros de configuración (codificados como 0/1 en el caso de booleanos) y las métricas de error:
Tabla 36. Correlación de parámetros con CER.
Parámetro | Correlación con CER | Interpretación |
use_doc_unwarping | +0.879 | Correlación alta positiva |
use_doc_orientation_classify | -0.712 | Correlación alta negativa |
textline_orientation | -0.535 | Correlación moderada negativa |
text_det_thresh | +0.428 | Correlación moderada positiva |
text_det_box_thresh | +0.311 | Correlación moderada positiva |
text_rec_score_thresh | -0.268 | Correlación moderada negativa |
text_det_unclip_ratio | NaN | Varianza cero (valor fijo) |
@@ -5416,7 +5411,7 @@ Configuración óptima:
Leyenda: Valores positivos indican que aumentar el parámetro incrementa el CER. Los parámetros booleanos se codifican como 0/1 para el cálculo de la correlación. Abreviaturas: unwarp = use_doc_unwarping, orient_doc = use_doc_orientation_classify, orient_line = textline_orientation, det_thresh = text_det_thresh, box_thresh = text_det_box_thresh, rec_score = text_rec_score_thresh.
Hallazgo clave: use_doc_unwarping presenta la correlación positiva más alta con CER (0.879), lo que indica que activar este módulo incrementa el error en este dataset. En cambio, use_doc_orientation_classify y textline_orientation tienen correlación negativa, asociada a mejoras cuando están activados.
-Impacto del Parámetro textline_orientation
+Impacto del Parámetro textline_orientation
El parámetro booleano textline_orientation demostró tener el mayor impacto en el rendimiento:
Tabla 38. Impacto del parámetro textline_orientation.
textline_orientation | CER Medio | CER Std | WER Medio | N trials |
True | 1.74% | 1.94% | 8.75% | 52 |
False | 4.73% | 1.37% | 11.42% | 12 |
@@ -5432,7 +5427,7 @@ Configuración óptima:
Explicación técnica:
El parámetro textline_orientation activa un clasificador que determina la orientación de cada línea de texto detectada. Para documentos con índice, encabezados y listas, este clasificador asegura que el texto se lea en el orden correcto, evitando la mezcla de líneas de diferentes secciones.
-Análisis de Trials con Mayor CER
+Análisis de Trials con Mayor CER
No se observaron fallos catastróficos (CER > 10%). El CER máximo fue 7.30%, por lo que el análisis se centra en los trials con peor desempeño relativo:
Tabla 39. Trials con mayor CER.
Trial ID | CER | text_det_thresh | textline_orientation |
f699b826 | 7.30% | 0.285 | False |
34bfaecf | 7.29% | 0.030 | True |
8c1998de | 6.44% | 0.369 | True |
8b33e2a2 | 6.41% | 0.664 | False |
@@ -5440,14 +5435,14 @@ Configuración óptima:
Observación: Los peores resultados muestran variabilidad tanto en text_det_thresh como en textline_orientation, sin un patrón único dominante en este subconjunto de trials.
Comparación Baseline vs Optimizado
-Evaluación sobre Dataset Completo
+Evaluación sobre Dataset Completo
La configuración óptima identificada se evaluó sobre el dataset completo de 45 páginas, comparando con la configuración baseline (valores por defecto de PaddleOCR). Los parámetros optimizados más relevantes fueron: textline_orientation=True, use_doc_orientation_classify=True, text_det_thresh=0.0462, text_det_box_thresh=0.4862, y text_rec_score_thresh=0.5658.
Tabla 40. Comparación baseline vs optimizado (45 páginas).
Modelo | CER | Precisión Caracteres | WER | Precisión Palabras |
PaddleOCR (Baseline) | 8.85% | 91.15% | 13.05% | 86.95% |
PaddleOCR-HyperAdjust | 7.72% | 92.28% | 11.40% | 88.60% |
Fuente: docs/metrics/metrics_paddle.md.
Nota sobre generalización: El mejor trial individual (5 páginas) alcanzó un CER de 0.79%, cumpliendo el objetivo de CER < 2%. Sin embargo, al aplicar la configuración al dataset completo de 45 páginas, el CER aumentó a 7.72%, evidenciando sobreajuste al subconjunto de entrenamiento. Esta diferencia es un hallazgo importante que se discute en la sección de análisis.
-Métricas de Mejora
+Métricas de Mejora
Tabla 41. Análisis cuantitativo de la mejora.
Forma de Medición | CER | WER |
Valor baseline | 8.85% | 13.05% |
Valor optimizado | 7.72% | 11.40% |
Mejora absoluta | -1.13 pp | -1.65 pp |
Reducción relativa del error | 12.8% | 12.6% |
Factor de mejora | 1.15× | 1.14× |
Mejor trial (5 páginas) | 0.79% | 7.78% |
Fuente: docs/metrics/metrics_paddle.md.
@@ -5457,7 +5452,7 @@ Configuración óptima:
Fuente: docs/metrics/metrics_paddle.md.
Leyenda: CER = Character Error Rate, WER = Word Error Rate. Baseline = configuración por defecto de PaddleOCR. Optimizado = configuración encontrada por Ray Tune. Los valores corresponden al dataset completo de 45 páginas.
-Impacto Práctico
+Impacto Práctico
La reducción de CER y WER implica menos correcciones manuales en el texto reconocido. En conjunto, los resultados muestran una mejora medible en precisión, aunque la generalización depende del tamaño y representatividad del subconjunto de optimización.
Tiempo de Ejecución
Tabla 42. Métricas de tiempo del experimento (GPU).
@@ -5475,7 +5470,7 @@ Configuración óptima:
Introducción
Los resultados obtenidos en las secciones anteriores requieren un análisis que trascienda los números individuales para comprender su significado práctico. En esta sección se consolidan los hallazgos del benchmark comparativo y la optimización de hiperparámetros, evaluando hasta qué punto se han cumplido los objetivos planteados y qué limitaciones condicionan la generalización de las conclusiones.
Resumen Consolidado de Resultados
-Progresión del Rendimiento
+Progresión del Rendimiento
Tabla 43. Evolución del rendimiento a través del estudio.
Fase | Configuración | CER | Mejora vs baseline |
Benchmark inicial | Baseline (5 páginas) | 7.76% | - |
Optimización (mejor trial) | Optimizada (5 páginas) | 0.79% | 89.8% |
Validación final | Optimizada (45 páginas) | 7.72% | 12.8% |
Fuente: docs/metrics/metrics_paddle.md.
@@ -5486,14 +5481,14 @@ Configuración óptima:
Leyenda: El mejor trial alcanza CER 0.79% (objetivo cumplido). La validación sobre dataset completo muestra CER 7.72%, evidenciando sobreajuste al subconjunto de optimización.
El incremento del CER de 0.79% (5 páginas) a 7.72% (45 páginas) evidencia sobreajuste al subconjunto de optimización. Este fenómeno es esperado cuando se optimiza sobre un subconjunto pequeño y se valida sobre el dataset completo con mayor diversidad de secciones y estilos.
-Comparación con Objetivo
+Comparación con Objetivo
Tabla 44. Verificación del objetivo general.
Aspecto | Objetivo | Resultado (trial) | Resultado (full) | Cumplimiento |
Métrica | CER | CER | CER | ✓ |
Umbral | < 2% | 0.79% | 7.72% | Parcial |
Método | Sin fine-tuning | Solo hiperparámetros | Solo hiperparámetros | ✓ |
Hardware | GPU | RTX 3060 | RTX 3060 | ✓ |
Fuente: docs/metrics/metrics_paddle.md.
Análisis del cumplimiento: El objetivo de CER < 2% se cumple en el mejor trial individual (0.79%), demostrando que la optimización de hiperparámetros puede alcanzar la precisión objetivo. Sin embargo, la validación sobre el dataset completo (7.72%) muestra que la generalización requiere trabajo adicional, como un subconjunto de optimización más representativo o técnicas de regularización.
Análisis Detallado de Hiperparámetros
-Jerarquía de Importancia
+Jerarquía de Importancia
Basándose en el análisis de los resultados de optimización:
Tabla 45. Ranking de importancia de hiperparámetros.
Rank | Parámetro | Pearson (CER) | Signo | Evidencia |
1 | use_doc_unwarping | 0.879 | Positivo | Correlación más alta con CER |
2 | use_doc_orientation_classify | -0.712 | Negativo | Correlación alta con CER |
3 | textline_orientation | -0.535 | Negativo | Correlación alta con CER |
4 | text_det_thresh | 0.428 | Positivo | Correlación moderada con CER |
5 | text_det_box_thresh | 0.311 | Positivo | Correlación moderada con CER |
6 | text_rec_score_thresh | -0.268 | Negativo | Correlación moderada con CER |
@@ -5505,7 +5500,7 @@ Configuración óptima:
Leyenda: Impacto relativo basado en |Pearson| (CER), normalizado respecto al valor máximo.
En términos de correlación lineal, use_doc_unwarping es el parámetro con mayor relación absoluta con el CER y su signo positivo indica que activarlo incrementa el error en este dataset. En cambio, use_doc_orientation_classify y textline_orientation presentan correlación negativa, lo que sugiere mejoras cuando están activados.
-Análisis del Parámetro textline_orientation
+Análisis del Parámetro textline_orientation
Por qué es tan importante:
El clasificador de orientación de línea resuelve un problema fundamental en documentos con secciones y cambios de formato: determinar el orden correcto de lectura. Sin este clasificador:
1. Las líneas del índice pueden mezclarse con el cuerpo del texto
@@ -5513,10 +5508,10 @@ Configuración óptima:
3. Las listas numeradas pueden leerse en orden incorrecto
Para documentos académicos que típicamente incluyen índice, listas y encabezados multinivel, este clasificador es esencial.
Recomendación: Siempre activar textline_orientation=True para documentos estructurados.
-Análisis del Parámetro text_det_thresh
+Análisis del Parámetro text_det_thresh
Comportamiento observado:
El análisis de correlación muestra que valores más bajos de text_det_thresh favorecen el rendimiento en este dataset. El valor óptimo encontrado en los trials fue 0.0462, lo que sugiere que una detección más sensible beneficia el resultado.
-Análisis de Parámetros de Preprocesamiento
+Análisis de Parámetros de Preprocesamiento
use_doc_orientation_classify:
En la configuración óptima GPU, este parámetro está activado (True), a diferencia de lo observado en experimentos anteriores. Esto sugiere que la clasificación de orientación del documento puede beneficiar incluso documentos digitales cuando se combina con textline_orientation=True.
use_doc_unwarping:
@@ -5526,12 +5521,12 @@ Configuración óptima:
· Documentos curvados o deformados
Para documentos PDF digitales como los evaluados, este módulo es innecesario y puede introducir artefactos.
Análisis de Casos de Fallo
-Clasificación de Errores
+Clasificación de Errores
Tabla 46. Tipología de errores observados.
Tipo de error | Frecuencia | Ejemplo | Causa probable |
Pérdida de acentos | Alta | más → mas | Modelo de reconocimiento |
Duplicación de caracteres | Media | titulación → titulacióon | Solapamiento de detecciones |
Confusión de puntuación | Media | ¿ → ? | Caracteres similares |
Pérdida de eñe | Baja | año → ano | Modelo de reconocimiento |
Texto desordenado | Variable | Mezcla de líneas | Fallo de orientación |
Fuente: Análisis cualitativo.
-Patrones de Fallo por Tipo de Contenido
+Patrones de Fallo por Tipo de Contenido
Tabla 47. Tasa de error por tipo de contenido (cualitativa).
Tipo de contenido | Nivel de error | Factor de riesgo |
Párrafos de texto | Bajo | Bajo |
Listas numeradas | Medio | Medio |
Índice y encabezados | Medio | Medio |
Encabezados + pie de página | Medio | Medio |
Texto con cambios tipográficos | Medio | Medio |
Listas con numeración densa | Alto | Alto |
Fuente: Estimación cualitativa.
@@ -5543,33 +5538,33 @@ Configuración óptima:
Nota sobre OE5: El objetivo de CER < 2% se cumple en el mejor trial individual (0.79%). La validación sobre el dataset completo (7.72%) muestra que la generalización requiere mayor trabajo, identificándose como línea de trabajo futuro.
Limitaciones del Estudio
-Limitaciones de Generalización
+Limitaciones de Generalización
1. Tipo de documento único: Solo se evaluaron documentos académicos de UNIR. La configuración óptima puede no ser transferible a otros tipos de documentos (facturas, formularios, contratos).
1. Idioma único: El estudio se centró en español. Otros idiomas con diferentes características ortográficas podrían requerir configuraciones diferentes.
1. Formato único: Solo se evaluaron PDFs digitales. Documentos escaneados o fotografías de documentos podrían beneficiarse de diferentes configuraciones.
-Limitaciones Metodológicas
+Limitaciones Metodológicas
1. Ground truth automático: El texto de referencia se extrajo programáticamente del PDF, lo cual puede introducir errores en el orden de lectura cuando hay secciones con encabezados y saltos de línea.
1. Tamaño del dataset: 45 páginas es un dataset limitado. Un dataset más amplio proporcionaría estimaciones más robustas.
1. Parámetro fijo: text_det_unclip_ratio se mantuvo en 0.0 durante todo el experimento. Explorar este parámetro podría revelar mejoras adicionales.
1. Subconjunto de ajuste limitado: El ajuste de hiperparámetros se realizó sobre 5 páginas (páginas 5-10), lo que contribuyó al sobreajuste observado en la validación del dataset completo.
-Limitaciones de Validación
+Limitaciones de Validación
1. Sin validación cruzada: No se realizó validación cruzada sobre diferentes subconjuntos del dataset.
1. Sin test set independiente: El dataset de validación final se solapaba parcialmente con el de optimización.
Implicaciones Prácticas
-Guía de Configuración Recomendada
+Guía de Configuración Recomendada
Para documentos académicos en español similares a los evaluados:
Tabla 49. Configuración recomendada para PaddleOCR con GPU.
Parámetro | Valor | Prioridad | Justificación |
textline_orientation | True | Obligatorio | Crítico para documentos con secciones |
use_doc_orientation_classify | True | Recomendado | Mejora orientación de documento |
text_det_thresh | 0.05 (rango: 0.04-0.10) | Recomendado | Detección sensible beneficia resultados |
text_det_box_thresh | 0.49 (rango: 0.4-0.6) | Recomendado | Balance de confianza |
text_rec_score_thresh | 0.57 (rango: 0.5-0.7) | Opcional | Filtra reconocimientos poco confiables |
use_doc_unwarping | False | No recomendado | Innecesario para PDFs digitales |
Fuente: src/results/raytune_paddle_results_20260119_122609.csv.
-Cuándo Aplicar Esta Metodología
+Cuándo Aplicar Esta Metodología
La optimización de hiperparámetros es recomendable cuando:
1. GPU disponible: Acelera significativamente la exploración del espacio de hiperparámetros (82× más rápido que CPU).
1. Modelo preentrenado adecuado: El modelo ya soporta el idioma objetivo (como PaddleOCR para español).
1. Dominio específico: Se busca optimizar para un tipo de documento particular.
1. Mejora incremental: El rendimiento baseline es aceptable pero mejorable.
1. Sin datos de entrenamiento: No se dispone de datasets etiquetados para fine-tuning.
-Cuándo NO Aplicar Esta Metodología
+Cuándo NO Aplicar Esta Metodología
La optimización de hiperparámetros puede ser insuficiente cuando:
1. Idioma no soportado: El modelo no incluye el idioma en su vocabulario.
1. Escritura manuscrita: Requiere fine-tuning o modelos especializados.
@@ -5595,14 +5590,14 @@ Configuración óptima:
· seryus.ddns.net/unir/doctr-gpu - DocTR con soporte GPU
Comparativa de Rendimiento CPU vs GPU
Esta sección presenta la comparación de rendimiento entre ejecución en CPU y GPU, justificando la elección de GPU para el experimento principal y demostrando el impacto práctico de la aceleración por hardware.
-Configuración del Entorno GPU
+Configuración del Entorno GPU
Tabla 50. Especificaciones del entorno GPU utilizado.
Componente | Especificación |
GPU | NVIDIA GeForce RTX 3060 Laptop |
VRAM | 5.66 GB |
CUDA | 12.4 |
Sistema Operativo | Ubuntu 24.04.3 LTS |
Kernel | 6.14.0-37-generic |
Fuente: docs/metrics/metrics.md.
Nota: Los requisitos de entorno documentados por dependencias se detallan en docs/07_anexo_a.md, sección A.9.
Este hardware representa configuración típica de desarrollo, permitiendo evaluar el rendimiento en condiciones realistas de despliegue.
-Comparación CPU vs GPU
+Comparación CPU vs GPU
Se comparó el tiempo de procesamiento entre CPU y GPU utilizando los datos de src/raytune_paddle_subproc_results_20251207_192320.csv(CPU) y src/results/raytune_paddle_results_20260119_122609.csv(GPU).
Tabla 51. Rendimiento comparativo CPU vs GPU.
Métrica | CPU | GPU (RTX 3060) | Factor de Aceleración |
Tiempo/Página (promedio) | 69.4s | 0.84s | 82x |
Dataset completo (45 páginas) | ~52 min | ~38 seg | 82x |
64 trials × 5 páginas | 6.2 horas | ~5.0 min | 75x |
@@ -5617,20 +5612,14 @@ Configuración óptima:
· Optimización en CPU (6.2 horas): Viable pero lento para iteraciones rápidas
· Optimización en GPU (~5.0 minutos): Permite explorar más configuraciones y realizar múltiples experimentos
· Producción con GPU (0.84s/página): Habilita procesamiento en tiempo real
-Comparación de Modelos PaddleOCR
+Comparación de Modelos PaddleOCR
PaddleOCR ofrece dos variantes de modelos: Mobile (optimizados para dispositivos con recursos limitados) y Server (mayor precisión a costa de mayor consumo de memoria). Se evaluó la viabilidad de ambas variantes en el hardware disponible.
Tabla 52. Comparación de modelos Mobile vs Server en RTX 3060.
Modelo | VRAM Requerida | Resultado | Recomendación |
PP-OCRv5 Mobile | 0.06 GB | Funciona correctamente | ✓ Recomendado |
PP-OCRv5 Server | 5.3 GB | OOM en página 2 | ✗ Requiere >8 GB VRAM |
Fuente: docs/metrics/metrics.md.
Los modelos Server, a pesar de ofrecer potencialmente mayor precisión, resultan inviables en hardware con VRAM limitada (≤6 GB) debido a errores de memoria (Out of Memory). Los modelos Mobile, con un consumo de memoria 88 veces menor, funcionan de manera estable y ofrecen rendimiento suficiente para el caso de uso evaluado.
-Conclusiones de la Validación GPU
-La validación con aceleración GPU permite extraer las siguientes conclusiones:
-1. Aceleración significativa: La GPU proporciona una aceleración de 82× sobre CPU, haciendo viable el procesamiento en tiempo real para aplicaciones interactivas.
-1. Modelos Mobile recomendados: Para hardware con VRAM limitada (≤6 GB), los modelos Mobile de PP-OCRv5 ofrecen el mejor balance entre precisión y recursos, funcionando de manera estable sin errores de memoria.
-1. Viabilidad práctica: Con GPU, el procesamiento de un documento completo (45 páginas) toma ~38 segundos, validando la aplicabilidad en entornos de producción donde el tiempo de respuesta es crítico.
-1. Escalabilidad: La arquitectura de microservicios dockerizados utilizada para la validación GPU facilita el despliegue horizontal, permitiendo escalar el procesamiento según demanda.
-Esta validación demuestra que la configuración optimizada mediante Ray Tune mejora la precisión (CER: 8.85% → 7.72% en dataset completo, 0.79% en mejor trial individual) y, combinada con aceleración GPU, resulta prácticamente aplicable en escenarios de producción real.
A lo largo de este trabajo se ha explorado la optimización de hiperparámetros como estrategia para mejorar el rendimiento de sistemas OCR sin necesidad de reentrenamiento. Las siguientes secciones evalúan el grado de cumplimiento de los objetivos planteados, sintetizan los hallazgos más relevantes y proponen direcciones para investigación futura.
@@ -5654,6 +5643,7 @@ y trabajo futuroA lo largo
No obstante, los umbrales presentan límites operativos que deben respetarse. En este estudio no se observaron fallos catastróficos (CER > 10%), pero los peores trials alcanzaron CER de hasta 7.30%, lo que indica que ciertas combinaciones de umbrales degradan el rendimiento. Este comportamiento sugiere la necesidad de acotar el espacio de búsqueda en futuros experimentos.
Otro hallazgo relevante es la innecesariedad de ciertos módulos para documentos digitales. Los PDF generados directamente desde procesadores de texto no presentan deformaciones físicas, como arrugas, curvaturas o rotaciones, para las que fueron diseñados los módulos de corrección. En estos casos, desactivar use_doc_unwarping no solo simplifica el pipeline, sino que puede mejorar el rendimiento al evitar procesamientos innecesarios.
Finalmente, los resultados demuestran que es posible mejorar modelos preentrenados mediante ajuste exclusivo de hiperparámetros de inferencia, sin necesidad de reentrenamiento. Sin embargo, esta aproximación requiere validación cuidadosa, ya que las configuraciones optimizadas sobre subconjuntos pequeños pueden no generalizar a conjuntos de datos más amplios o diversos.
+Respecto a la validación con aceleración GPU, la GPU proporciona una aceleración de 82× sobre CPU, haciendo viable el procesamiento en tiempo real para aplicaciones interactivas. Con GPU, el procesamiento de un documento completo (45 páginas) toma aproximadamente 38 segundos, validando la aplicabilidad en entornos de producción donde el tiempo de respuesta es crítico. Para hardware con VRAM limitada (≤6 GB), los modelos Mobile de PP-OCRv5 ofrecen el mejor balance entre precisión y recursos, funcionando de manera estable sin errores de memoria, mientras que los modelos Server resultan inviables debido a errores Out of Memory. Además, la arquitectura de microservicios dockerizados utilizada facilita el despliegue horizontal, permitiendo escalar el procesamiento según demanda.
Contribuciones del Trabajo
La principal contribución de este trabajo es una metodología reproducible para la optimización de hiperparámetros OCR. El proceso completo, desde la preparación del conjunto de datos hasta la validación de la configuración óptima, queda documentado y es replicable mediante las herramientas Ray Tune y Optuna.
En segundo lugar, el análisis sistemático de los hiperparámetros de PaddleOCR constituye una contribución al conocimiento disponible sobre este motor OCR. Mediante el cálculo de correlaciones y análisis comparativo, se cuantifica el impacto de cada parámetro configurable, información que puede orientar futuros trabajos de optimización.
@@ -5719,28 +5709,22 @@ major-latin;mso-bidi-font-family:"Calibri Light";mso-bidi-theme-font:major-latin
· Dataset: Imágenes y textos de referencia utilizados
· Resultados: Archivos CSV con los resultados de los 64 trials por servicio
A.2 Estructura del Repositorio
-Figura 16. Estructura del repositorio MastersThesis
-
+Figura A1. Estructura del repositorio MastersThesis
+[Insertar diagrama Mermaid aquí]
Fuente: Elaboración propia.
-Tabla 54. Descripción de directorios principales.
-
-Fuente: Repositorio del proyecto.
-
A.3 Requisitos de Software
Sistema de Desarrollo
-Tabla 55. Especificaciones del sistema de desarrollo.
+Tabla A1. Especificaciones del sistema de desarrollo.
Componente | Especificación |
Sistema Operativo | Ubuntu 24.04.3 LTS |
CPU | AMD Ryzen 7 5800H |
RAM | 16 GB DDR4 |
GPU | NVIDIA RTX 3060 Laptop (5.66 GB VRAM) |
CUDA | 12.4 |
Fuente: docs/metrics/metrics.md.
Dependencias
-Dependencias
-Tabla 56. Dependencias del proyecto.
+Tabla A2. Dependencias del proyecto.
Componente | Versión |
PaddlePaddle | 3.2.2 |
PaddleOCR | 3.3.2 |
Ray Tune | 2.52.1 |
Optuna | 4.7.0 |
DocTR (python-doctr) | >= 0.8.0 |
EasyOCR | >= 1.7.0 |
Docker | Requerido para contenedores |
NVIDIA Container Toolkit | Requerido para GPU |
Fuente: src/paddle_ocr/requirements.txt, src/raytune/requirements.txt, src/doctr_service/requirements.txt, src/easyocr_service/requirements.txt, src/README.md.
A.4 Instrucciones de Ejecución de Servicios OCR
-A.4 Instrucciones de Ejecución de Servicios OCR
PaddleOCR (Puerto 8002)
Imágenes Docker:
· GPU: seryus.ddns.net/unir/paddle-ocr-gpu
@@ -5755,7 +5739,7 @@ docker compose up -d
docker compose -f docker-compose.cpu-registry.yml up -d