"Nuestro objetivo general es optimizar PaddleOCR para documentos académicos en español, alcanzando un CER — Character Error Rate — inferior al 2%, sin modificar el modelo base.
Para conseguirlo, definimos cinco objetivos específicos, todos ellos SMART.
Primero, OE1: realizar una comparativa de tres motores OCR de código abierto — EasyOCR, PaddleOCR y DocTR — para seleccionar el más adecuado.
OE2: preparar un dataset estructurado de 45 páginas con ground truth extraído automáticamente.
OE3: identificar los hiperparámetros críticos mediante análisis de correlación de Pearson.
OE4: ejecutar 64 ensayos automatizados de optimización usando Ray Tune con optimización bayesiana — concretamente, el algoritmo TPE de Optuna, que construye un modelo probabilístico del espacio de búsqueda para proponer configuraciones cada vez más prometedoras.