Sesión 5: Evaluación automática y human-in-the-loop
¿Cómo evaluar prompts y respuestas?
Existen dos enfoques principales:
- Métricas automáticas: BLEU, ROUGE, pero no siempre reflejan calidad real en lenguaje natural.
- Criterios personalizados: Exactitud, completitud, relevancia, claridad, formato, etc.
- Tests A/B: Comparar dos versiones de un prompt o modelo.
- Evaluación humana: Checklist de aceptación, revisión por pares, feedback cualitativo.
Checklist de aceptación:
- ¿La respuesta cumple el objetivo?
- ¿El formato es correcto?
- ¿No hay información inventada?
- ¿Es clara y relevante?
Práctica: Diseña un checklist y ejecuta una evaluación de prompts.