| Original | OCR | Error |
|---|---|---|
| más | mas | Pérdida de acento |
| año | ano | Pérdida de eñe |
| ¿Cómo | Como | Signos especiales |
| titulación | titulacióon | Duplicación |
| Parámetro | Tipo | Rango |
|---|---|---|
textline_orientation | Booleano | True / False |
use_doc_orientation_classify | Booleano | True / False |
use_doc_unwarping | Booleano | True / False |
text_det_thresh | Continuo | [0.01, 0.50] |
text_det_box_thresh | Continuo | [0.01, 0.90] |
text_rec_score_thresh | Continuo | [0.01, 0.99] |
text_det_unclip_ratio | Fijo | 0.0 |
| Motor | CER | WER | s/pág | VRAM |
|---|---|---|---|---|
| EasyOCR | 11.23% | 36.36% | 1.88 | ~2 GB |
| PaddleOCR | 7.76% | 11.62% | 0.58 | 0.06 GB |
| DocTR | 12.06% | 42.01% | 0.50 | ~1 GB |
textline_orientationuse_doc_unwarping (+0.88) es perjudicial en PDFs digitales (añade procesamiento innecesario). Los parámetros booleanos (arquitecturales) dominan sobre los umbrales numéricos.
| Métrica | Baseline | Optimizado | Mejora |
|---|---|---|---|
| CER (45 pág) | 8.85% | 7.72% | -12.8% |
| WER (45 pág) | 13.05% | 11.40% | -12.6% |
| CER (mejor trial, 5 pág) | 7.76% | 0.79% | -89.8% |
textline_orientation = True: Parámetro más impactante (-63.2% CER)use_doc_unwarping = False: Procesamiento innecesario para PDFs digitalestext_det_thresh bajo: Captura más regiones de texto, reduce omisionestext_det_unclip_ratio no exploradotext_det_unclip_ratio