Valutazioni (Evaluations)

Il servizio Evaluations consente di misurare la qualità degli agenti su dataset di test cases riproducibili. Ogni run produce metriche RAGAS (faithfulness, answer relevancy, context precision, ecc.) e tiene traccia degli AI credits consumati.

Concetti

Entità	Descrizione
Dataset	Insieme di test case raggruppati per scopo (es. "Domande sulla policy resi")
Test case	Una domanda con la risposta attesa (`expected_output`) e il contesto opzionale
Run	Esecuzione del dataset su un agente o modello specifico, in un dato momento
Judge	Modello LLM dedicato alla valutazione (separato dal modello in test)

Modalità

La modalità di esecuzione è bloccata su full_pipeline: ogni run riproduce l'intero stack dell'agente (RAG, prompt, MCP, handoff). Modalità "direct" non supportate per garantire che il punteggio rifletta il comportamento di produzione.

Creazione di un dataset

Valutazioni → Dataset → Nuovo
Nome, descrizione, lingua, agente di riferimento (opzionale)
Aggiungi test case singolarmente o via import CSV
Salva

Dalla lista dataset puoi anche modificare inline nome e descrizione tramite l'icona di edit accanto a ciascuna riga.

Lancio di un run

Apri il dataset → Esegui valutazione:

Agente — l'agente da valutare
Judge model — modello LLM dedicato per il grading (consigliato: modello differente dal modello in test, per evitare bias)
Metriche — RAGAS faithfulness, answer relevancy, context precision/recall

La card del nuovo run compare immediatamente nella lista (in stato running) — la dedup è gestita per id per evitare doppi inserimenti durante reload.

Eliminazione di run

È possibile cancellare singoli run dal dettaglio del dataset (icona del cestino sulla riga). Il dataset rimane intatto.

Test case come card

Nel dettaglio del dataset i test case sono mostrati come card invece che righe di tabella. Click su una card apre il dialog dettaglio con domanda, risposta attesa, contesto e (se eseguito) confronto con la risposta dell'agente.

AI credits

Ogni run mostra i crediti AI effettivamente consumati (somma del modello in test + judge). I valori sono visibili anche dalla pagina Monitoring → Costi filtrando per operation_type=evaluation.

Faithfulness judge

Il judge di Faithfulness è guidato a riconoscere l'equivalenza semantica (non la coincidenza letterale): rifrasi corrette della stessa informazione vengono accettate.

Quando usare le valutazioni

Prima di un cambio modello — confronta lo stesso dataset su due agenti con modelli diversi
Dopo modifiche al prompt — regression test del nuovo system prompt
Validazione delle KB — un dataset specifico sui contenuti delle KB rivela copertura e accuratezza del retrieval
A/B testing — combina con il modulo A/B per ratificare statisticamente la versione migliore

Concetti​

Modalità​

Creazione di un dataset​

Lancio di un run​

Eliminazione di run​

Test case come card​

AI credits​

Faithfulness judge​

Quando usare le valutazioni​