Valutazioni (Evaluations)
Il servizio Evaluations consente di misurare la qualità degli agenti su dataset di test cases riproducibili. Ogni run produce metriche RAGAS (faithfulness, answer relevancy, context precision, ecc.) e tiene traccia degli AI credits consumati.
Concetti
| Entità | Descrizione |
|---|---|
| Dataset | Insieme di test case raggruppati per scopo (es. "Domande sulla policy resi") |
| Test case | Una domanda con la risposta attesa (expected_output) e il contesto opzionale |
| Run | Esecuzione del dataset su un agente o modello specifico, in un dato momento |
| Judge | Modello LLM dedicato alla valutazione (separato dal modello in test) |
Modalità
La modalità di esecuzione è bloccata su full_pipeline: ogni run riproduce l'intero stack dell'agente (RAG, prompt, MCP, handoff). Modalità "direct" non supportate per garantire che il punteggio rifletta il comportamento di produzione.
Creazione di un dataset
- Valutazioni → Dataset → Nuovo
- Nome, descrizione, lingua, agente di riferimento (opzionale)
- Aggiungi test case singolarmente o via import CSV
- Salva
Dalla lista dataset puoi anche modificare inline nome e descrizione tramite l'icona di edit accanto a ciascuna riga.
Lancio di un run
Apri il dataset → Esegui valutazione:
- Agente — l'agente da valutare
- Judge model — modello LLM dedicato per il grading (consigliato: modello differente dal modello in test, per evitare bias)
- Metriche — RAGAS faithfulness, answer relevancy, context precision/recall
La card del nuovo run compare immediatamente nella lista (in stato running) — la dedup è gestita per id per evitare doppi inserimenti durante reload.
Eliminazione di run
È possibile cancellare singoli run dal dettaglio del dataset (icona del cestino sulla riga). Il dataset rimane intatto.
Test case come card
Nel dettaglio del dataset i test case sono mostrati come card invece che righe di tabella. Click su una card apre il dialog dettaglio con domanda, risposta attesa, contesto e (se eseguito) confronto con la risposta dell'agente.
AI credits
Ogni run mostra i crediti AI effettivamente consumati (somma del modello in test + judge). I valori sono visibili anche dalla pagina Monitoring → Costi filtrando per operation_type=evaluation.
Faithfulness judge
Il judge di Faithfulness è guidato a riconoscere l'equivalenza semantica (non la coincidenza letterale): rifrasi corrette della stessa informazione vengono accettate.
Quando usare le valutazioni
- Prima di un cambio modello — confronta lo stesso dataset su due agenti con modelli diversi
- Dopo modifiche al prompt — regression test del nuovo system prompt
- Validazione delle KB — un dataset specifico sui contenuti delle KB rivela copertura e accuratezza del retrieval
- A/B testing — combina con il modulo A/B per ratificare statisticamente la versione migliore