| Original | OCR | Error |
|---|---|---|
| más | mas | Pérdida de acento |
| año | ano | Pérdida de eñe |
| ¿Cómo | Como | Signos especiales |
| titulación | titulacióon | Duplicación |
| Parámetro | Tipo | Rango |
|---|---|---|
textline_orientation | Booleano | True / False |
use_doc_orientation_classify | Booleano | True / False |
use_doc_unwarping | Booleano | True / False |
text_det_thresh | Continuo | [0.01, 0.50] |
text_det_box_thresh | Continuo | [0.01, 0.90] |
text_rec_score_thresh | Continuo | [0.01, 0.99] |
text_det_unclip_ratio | Fijo | 0.0 |
| Motor | Base | HPO | Mejora |
|---|---|---|---|
| EasyOCR | 11.23% | 5.84% | -48% |
| PaddleOCR | 7.76% | 0.79% | -90% |
| DocTR | 12.06% | 7.43% | -38% |
textline_orientation
use_doc_unwarping (+0.88) es perjudicial en PDFs digitales (añade procesamiento innecesario). Los parámetros booleanos (arquitecturales) dominan sobre los umbrales numéricos.
| Métrica | Baseline | Optimizado | Mejora |
|---|---|---|---|
| CER (45 pág) | 8.85% | 7.72% | -12.8% |
| WER (45 pág) | 13.05% | 11.40% | -12.6% |
| CER (mejor trial, 5 pág) | 7.76% | 0.79% | -89.8% |
textline_orientation = True: Parámetro más impactante (-63.2% CER)use_doc_unwarping = False: Procesamiento innecesario para PDFs digitalestext_det_thresh bajo: Captura más regiones de texto, reduce omisiones
text_det_unclip_ratio no explorado
text_det_unclip_ratio