Passa al contenuto principale

Valutazioni (Evaluations)

Il servizio Evaluations consente di misurare la qualità degli agenti su dataset di test cases riproducibili. Ogni run produce metriche RAGAS (faithfulness, answer relevancy, context precision, ecc.) e tiene traccia degli AI credits consumati.

Concetti

EntitàDescrizione
DatasetInsieme di test case raggruppati per scopo (es. "Domande sulla policy resi")
Test caseUna domanda con la risposta attesa (expected_output) e il contesto opzionale
RunEsecuzione del dataset su un agente o modello specifico, in un dato momento
JudgeModello LLM dedicato alla valutazione (separato dal modello in test)

Modalità

La modalità di esecuzione è bloccata su full_pipeline: ogni run riproduce l'intero stack dell'agente (RAG, prompt, MCP, handoff). Modalità "direct" non supportate per garantire che il punteggio rifletta il comportamento di produzione.

Creazione di un dataset

  1. Valutazioni → Dataset → Nuovo
  2. Nome, descrizione, lingua, agente di riferimento (opzionale)
  3. Aggiungi test case singolarmente o via import CSV
  4. Salva

Dalla lista dataset puoi anche modificare inline nome e descrizione tramite l'icona di edit accanto a ciascuna riga.

Lancio di un run

Apri il dataset → Esegui valutazione:

  • Agente — l'agente da valutare
  • Judge model — modello LLM dedicato per il grading (consigliato: modello differente dal modello in test, per evitare bias)
  • Metriche — RAGAS faithfulness, answer relevancy, context precision/recall

La card del nuovo run compare immediatamente nella lista (in stato running) — la dedup è gestita per id per evitare doppi inserimenti durante reload.

Eliminazione di run

È possibile cancellare singoli run dal dettaglio del dataset (icona del cestino sulla riga). Il dataset rimane intatto.

Test case come card

Nel dettaglio del dataset i test case sono mostrati come card invece che righe di tabella. Click su una card apre il dialog dettaglio con domanda, risposta attesa, contesto e (se eseguito) confronto con la risposta dell'agente.

AI credits

Ogni run mostra i crediti AI effettivamente consumati (somma del modello in test + judge). I valori sono visibili anche dalla pagina Monitoring → Costi filtrando per operation_type=evaluation.

Faithfulness judge

Il judge di Faithfulness è guidato a riconoscere l'equivalenza semantica (non la coincidenza letterale): rifrasi corrette della stessa informazione vengono accettate.

Quando usare le valutazioni

  • Prima di un cambio modello — confronta lo stesso dataset su due agenti con modelli diversi
  • Dopo modifiche al prompt — regression test del nuovo system prompt
  • Validazione delle KB — un dataset specifico sui contenuti delle KB rivela copertura e accuratezza del retrieval
  • A/B testing — combina con il modulo A/B per ratificare statisticamente la versione migliore