Modelli AI

La sezione Modelli AI mostra il catalogo dei modelli LLM disponibili al tuo tenant: modelli globali condivisi e modelli locali aggiunti dal tenant stesso.

Catalogo modelli

Provider supportati

Askme AI supporta nativamente i seguenti provider:

Provider	Tipologie modelli	Note
OpenAI	Chat (GPT-4o, GPT-4.1, ecc.), Embedding (text-embedding-3)	API ufficiale
Anthropic	Chat (Claude Sonnet, Claude Haiku)	API ufficiale
Mistral	Chat (mistral-small/medium/large)	API ufficiale
Google	Chat (Gemini 1.5 Pro/Flash)	API ufficiale
Ollama	Chat ed embedding di qualsiasi modello self-hosted	Endpoint locale o privato

Modelli globali

I modelli globali (con tenant_id non impostato) sono gestiti centralmente dal team IT di Askme e disponibili a tutti i tenant in sola lettura.

Per ciascun modello la card mostra:

Nome e provider
Tipo (chat / embedding)
Context window e max output tokens
Capacita': function calling, vision, streaming, reasoning
Fascia di costo — moltiplicatore crediti (vedi sotto)

Modelli locali (Ollama)

Come tenant administrator puoi aggiungere modelli Ollama locali per sfruttare risorse on-prem o private (utile per dati sensibili o per ridurre i costi).

Aggiungere un modello locale

Click su Aggiungi modello locale
Compila:
- Nome modello (deve corrispondere al modello installato sull'istanza Ollama)
- Base URL Ollama — endpoint dell'istanza Ollama del tenant
- API key (opzionale, se l'istanza richiede autenticazione)
- Costi per token input/output (in crediti)
- Capacita': function calling, vision, streaming, reasoning
Salva

Provider locali

Solo i provider ollama e local sono ammessi come modelli a livello di tenant. I provider commerciali (OpenAI, Anthropic, ecc.) sono gestiti centralmente con chiavi API condivise; per richiedere abilitazioni di nuovi provider o nuovi modelli commerciali contatta il team IT di Askme.

Selezione modello negli agenti

Nel form di un agente (Step 3 — Parametri modello), il dropdown Modello AI principale lista tutti i modelli visibili al tenant:

Modello chat — utilizzato per generare le risposte
Modello operazionale — utilizzato per operazioni interne come query rewrite e reranking. La configurazione e' centralizzata: per modificarlo contatta il team IT di Askme
Modello embedding (configurabile a livello di KB) — utilizzato per la vettorizzazione dei documenti

Vedi Gestione agenti — Step 3 per i dettagli sui parametri.

Fasce di costo

Ogni modello ha una fascia di costo che determina il moltiplicatore di crediti AI consumati per token:

Fascia	Moltiplicatore	Esempio
Free	0× (gratuito)	Modelli Ollama locali
Budget	1×	GPT-4o-mini, Claude Haiku, Mistral Small
Mid	20×	GPT-4o, Claude Sonnet
Premium	120×	Modelli reasoning, modelli flagship

L'utilizzo dei crediti viene tracciato sulla quota mensile (vedi Monitoraggio — Tab Quote).

Suggerimenti

Inizia col Mid tier per agenti generalisti — buon compromesso qualita'/costo
Riserva il Premium per task con reasoning complesso (analisi, classificazioni multilivello)
Usa modelli Free locali per task ad alto volume e bassa criticita' (es. classificazione embedding interna)
Verifica le capacita' richieste dall'agente: la vision e il function calling sono gating ai tool MCP
Tieni d'occhio il context window: agenti con KB grandi e cronologia lunga richiedono almeno 32k token di contesto

Provider supportati​

Modelli globali​

Modelli locali (Ollama)​

Aggiungere un modello locale​

Selezione modello negli agenti​

Fasce di costo​

Suggerimenti​