From b1539fd79fd2a714b2a73a50a46ab377d6629588 Mon Sep 17 00:00:00 2001
From: Sergio Jimenez Jimenez {mathml} · {md_to_html_para(item_text)} {num}. {md_to_html_para(item_text)} {md_to_html_para(para_text)}
La distancia de Levenshtein (Levenshtein, 1966) entre dos cadenas es el número mínimo de operaciones de edición (inserción, eliminación, sustitución) necesarias para transformar una cadena en otra. Formalmente, para dos cadenas a y b:
-$$d(a,b) = \min(\text{inserciones} + \text{eliminaciones} + \text{sustituciones})$$
+Esta métrica es fundamental para calcular tanto CER como WER.
El CER mide el error a nivel de carácter y se calcula como:
-$$CER = \frac{S + D + I}{N}$$
+Donde:
· S = número de sustituciones de caracteres
· D = número de eliminaciones de caracteres
@@ -4695,7 +4695,7 @@ _Toc14106979">· Búsqueda y archivo: CER < 5% puede ser suficienteEl WER mide el error a nivel de palabra, utilizando la misma fórmula pero considerando palabras como unidades:
-$$WER = \frac{S_w + D_w + I_w}{N_w}$$
+El WER es generalmente mayor que el CER, ya que un solo error de carácter puede invalidar una palabra completa. La relación típica es WER ≈ 2-3 × CER para texto en español.
Precision y Recall a nivel de palabra: Útiles cuando se evalúa la capacidad del sistema para detectar palabras específicas.
@@ -4808,16 +4808,18 @@ _Toc14106979">· Parámetros de regularización (dropout, weight decay)· Umbrales de decisión en tiempo de inferencia (relevante para este trabajo)
El problema de HPO puede formalizarse como:
-$$\lambda^* = \arg\min_{\lambda \in \Lambda} \mathcal{L}(M_\lambda, D_{val})$$
+Donde:
-· $\lambda$ es un vector de hiperparámetros
-· $\Lambda$ es el espacio de búsqueda
-· $M_\lambda$ es el modelo configurado con $\lambda$
-· $\mathcal{L}$ es la función de pérdida
-· $D_{val}$ es el conjunto de validación
+· es un vector de hiperparámetros
+· es el espacio de búsqueda
+· es el modelo configurado con
+· es la función de pérdida
+· es el conjunto de validación
Grid Search (Búsqueda en rejilla):
-El método más simple consiste en evaluar todas las combinaciones posibles de valores discretizados de los hiperparámetros. Para $k$ hiperparámetros con $n$ valores cada uno, requiere $n^k$ evaluaciones.
+ +El método más simple consiste en evaluar todas las combinaciones posibles de valores discretizados de los hiperparámetros. Para hiperparámetros con valores cada uno, requiere evaluaciones. +Ventajas:
· Exhaustivo y reproducible
· Fácil de paralelizar
@@ -4841,12 +4843,18 @@ _Toc14106979">· Random Forests: Manejan bien espacios de alta dimensión y variables categóricas· Tree-structured Parzen Estimator (TPE): Modela densidades en lugar de la función objetivo
TPE, propuesto por Bergstra et al. (2011) e implementado en Optuna, es particularmente efectivo para HPO. En lugar de modelar $p(y|\lambda)$ directamente, TPE modela:
-$$p(\lambda|y) = \begin{cases} l(\lambda) & \text{si } y < y^ \\ g(\lambda) & \text{si } y \geq y^ \end{cases}$$
-Donde $y^*$ es un umbral (típicamente el percentil 15-25 de las observaciones), $l(\lambda)$ es la densidad de hiperparámetros con buen rendimiento, y $g(\lambda)$ es la densidad de hiperparámetros con mal rendimiento.
+ +TPE, propuesto por Bergstra et al. (2011) e implementado en Optuna, es particularmente efectivo para HPO. En lugar de modelar directamente, TPE modela: + + + +Donde es un umbral (típicamente el percentil 15-25 de las observaciones), es la densidad de hiperparámetros con buen rendimiento, y es la densidad de hiperparámetros con mal rendimiento. +La función de adquisición Expected Improvement se aproxima como:
-$$EI(\lambda) \propto \frac{l(\lambda)}{g(\lambda)}$$
-Configuraciones con alta probabilidad bajo $l$ y baja probabilidad bajo $g$ tienen mayor Expected Improvement.
+ + +Configuraciones con alta probabilidad bajo y baja probabilidad bajo tienen mayor Expected Improvement. +Ventajas de TPE:
· Maneja naturalmente espacios condicionales (hiperparámetros que dependen de otros)
· Eficiente para espacios de alta dimensión