Sesión 5: Evaluación automática y human-in-the-loop

¿Cómo evaluar prompts y respuestas?

Existen dos enfoques principales:

Métricas automáticas: BLEU, ROUGE, pero no siempre reflejan calidad real en lenguaje natural.
Criterios personalizados: Exactitud, completitud, relevancia, claridad, formato, etc.
Tests A/B: Comparar dos versiones de un prompt o modelo.
Evaluación humana: Checklist de aceptación, revisión por pares, feedback cualitativo.

Checklist de aceptación:
- ¿La respuesta cumple el objetivo?
- ¿El formato es correcto?
- ¿No hay información inventada?
- ¿Es clara y relevante?

Práctica: Diseña un checklist y ejecuta una evaluación de prompts.

Video: Evaluación automática y humana

Quiz interactivo

Experimenta evaluando prompts