From c796e4cc7f6d005764b76144f00e8f0da439038c Mon Sep 17 00:00:00 2001
From: sergio {latex} {latex}
La distancia de Levenshtein (Levenshtein, 1966) entre dos cadenas es el número mínimo de operaciones de edición (inserción, eliminación, sustitución) necesarias para transformar una cadena en otra. Formalmente, para dos cadenas a y b:
-d(a,b) = \min(\text{inserciones} + \text{eliminaciones} + \text{sustituciones})
d(a,b) = \min(\text{inserciones} + \text{eliminaciones} + \text{sustituciones})
Esta métrica es fundamental para calcular tanto CER como WER.
El CER mide el error a nivel de carácter y se calcula como:
-CER = \frac{S + D + I}{N}
CER = \frac{S + D + I}{N}
Donde:
· S = número de sustituciones de caracteres
· D = número de eliminaciones de caracteres
@@ -4686,7 +4686,7 @@ _Toc14106979">Un CER bajo indica que el sistema comete pocos errores a nivel de carácter. Para aplicaciones críticas se requiere un nivel de error muy reducido, mientras que en tareas de búsqueda o archivo pueden aceptarse errores mayores.El WER mide el error a nivel de palabra, utilizando la misma fórmula pero considerando palabras como unidades:
-WER = \frac{S_w + D_w + I_w}{N_w}
WER = \frac{S_w + D_w + I_w}{N_w}
El WER es generalmente mayor que el CER, ya que un solo error de carácter puede invalidar una palabra completa. Esta diferencia es relevante cuando se comparan sistemas que preservan caracteres pero pierden palabras completas.
Precisión y Recall a nivel de palabra: Útiles cuando se evalúa la capacidad del sistema para detectar palabras específicas.
@@ -4807,16 +4807,16 @@ _Toc14106979">· Parámetros de regularización (dropout, weight decay)· Umbrales de decisión en tiempo de inferencia (relevante para este trabajo)
El problema de HPO puede formalizarse como:
-\lambda^* = \operatorname{argmin}_{\lambda \in \Lambda} \mathcal{L}(M_\lambda, D_{val})
\lambda^* = \operatorname{argmin}_{\lambda \in \Lambda} \mathcal{L}(M_\lambda, D_{val})
Donde:
-· \lambda es un vector de hiperparámetros
-· \Lambda es el espacio de búsqueda
-· M_\lambda es el modelo configurado con \lambda
-· \mathcal{L} es la función de pérdida
-· D_{val} es el conjunto de validación
+· \lambda es un vector de hiperparámetros
+· \Lambda es el espacio de búsqueda
+· M_\lambda es el modelo configurado con \lambda
+· \mathcal{L} es la función de pérdida
+· D_{val} es el conjunto de validación
Grid Search (Búsqueda en rejilla):
-El método más simple consiste en evaluar todas las combinaciones posibles de valores discretizados de los hiperparámetros. Para k hiperparámetros con n valores cada uno, requiere n^k evaluaciones.
+El método más simple consiste en evaluar todas las combinaciones posibles de valores discretizados de los hiperparámetros. Para k hiperparámetros con n valores cada uno, requiere n^k evaluaciones.
Ventajas:
· Exhaustivo y reproducible
· Fácil de paralelizar
@@ -4840,12 +4840,12 @@ _Toc14106979">· Random Forests: Manejan bien espacios de alta dimensión y variables categóricas· Tree-structured Parzen Estimator (TPE): Modela densidades en lugar de la función objetivo
TPE, propuesto por Bergstra et al. (2011) e implementado en Optuna, es particularmente efectivo para HPO. En lugar de modelar p(y|\lambda) directamente, TPE modela:
-p(\lambda|y) = \begin{cases} l(\lambda) & \text{si } y < y^ \\ g(\lambda) & \text{si } y \geq y^ \end{cases}
Donde y^* es un umbral (típicamente el percentil 15-25 de las observaciones), l(\lambda) es la densidad de hiperparámetros con buen rendimiento, y g(\lambda) es la densidad de hiperparámetros con mal rendimiento.
+TPE, propuesto por Bergstra et al. (2011) e implementado en Optuna, es particularmente efectivo para HPO. En lugar de modelar p(y|\lambda) directamente, TPE modela:
+p(\lambda|y) = \begin{cases} l(\lambda) & \text{si } y < y^ \\ g(\lambda) & \text{si } y \geq y^ \end{cases}
Donde y^* es un umbral (típicamente el percentil 15-25 de las observaciones), l(\lambda) es la densidad de hiperparámetros con buen rendimiento, y g(\lambda) es la densidad de hiperparámetros con mal rendimiento.
La función de adquisición Expected Improvement se aproxima como:
-EI(\lambda) \propto \frac{l(\lambda)}{g(\lambda)}
Configuraciones con alta probabilidad bajo l y baja probabilidad bajo g tienen mayor Expected Improvement.
+EI(\lambda) \propto \frac{l(\lambda)}{g(\lambda)}
Configuraciones con alta probabilidad bajo l y baja probabilidad bajo g tienen mayor Expected Improvement.
Ventajas de TPE:
· Maneja naturalmente espacios condicionales (hiperparámetros que dependen de otros)
· Eficiente para espacios de alta dimensión