A partire dal 29 aprile 2025, i modelli Gemini 1.5 Pro e Gemini 1.5 Flash non sono disponibili nei progetti che non li hanno mai utilizzati, inclusi i nuovi progetti. Per maggiori dettagli, vedi Versioni e ciclo di vita dei modelli.

Questa pagina è stata tradotta dall'API Cloud Translation.

Modelli di Llama
Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

I modelli Llama su Vertex AI offrono modelli completamente gestiti e serverless come API. Per utilizzare un modello Llama su Vertex AI, invia una richiesta direttamente all'endpoint dell'API Vertex AI. Poiché i modelli Llama utilizzano un'API gestita, non è necessario eseguire il provisioning o gestire l'infrastruttura.

Puoi trasmettere le risposte in streaming per ridurre la percezione della latenza da parte dell'utente finale. Una risposta in streaming utilizza gli eventi inviati dal server (SSE) per eseguire lo streaming incrementale della risposta.

Modelli di Llama disponibili

I seguenti modelli Llama sono disponibili da Meta per l'utilizzo in Vertex AI. Per accedere a un modello Llama, vai alla relativa scheda del modello in Model Garden.

I modelli in anteprima hanno anche l'opzione di deployment autonomo. Se necessiti di un servizio pronto per la produzione, utilizza i modelli Llama di deployment autonomo.

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E è il modello Llama 4 più grande e potente che offre funzionalità di programmazione, ragionamento e immagini. Presenta un'architettura MoE (Mixture of Experts) con 17 miliardi di parametri attivi su 400 miliardi di parametri totali e 128 esperti. Llama 4 Maverick 17B-128E utilizza livelli di MoE e densi alternati, in cui ogni token attiva un esperto condiviso più uno dei 128 esperti di routing. Il modello è preaddestrato su 200 lingue e ottimizzato per interazioni di chat di alta qualità tramite una pipeline post-addestramento perfezionata.

Llama 4 Maverick 17B-128E è multimodale ed è adatto per la trascrizione avanzata delle immagini, l'analisi, la comprensione precisa delle immagini, le domande e le risposte visive, la generazione di testo creativo, gli assistenti IA generici e i chatbot sofisticati che richiedono intelligenza e comprensione delle immagini di alto livello.

Considerazioni

Puoi includere un massimo di tre immagini per richiesta.
L'endpoint MaaS non utilizza Llama Guard, a differenza delle versioni precedenti. Per utilizzare Llama Guard, esegui il deployment di Llama Guard da Model Garden e poi invia i prompt e le risposte a quell'endpoint. Tuttavia, rispetto a Llama 4, Llama Guard ha un contesto più limitato (128.000) e può elaborare solo richieste con una singola immagine all'inizio del prompt.
Le previsioni in batch non sono supportate.

Vai alla scheda del modello Llama 4

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E offre risultati all'avanguardia per la sua classe di dimensioni e supera le generazioni precedenti di Llama e altri modelli aperti e proprietari su diversi benchmark. Presenta un'architettura MoE con 17 miliardi di parametri attivi su 109 miliardi di parametri totali e 16 esperti.

Llama 4 Scout 17B-16E è adatto per le attività di recupero in contesti lunghi e per le attività che richiedono il ragionamento su grandi quantità di informazioni, ad esempio il riepilogo di più documenti di grandi dimensioni, l'analisi di estesi log di interazione utente per la personalizzazione e il ragionamento su codebase di grandi dimensioni.

Considerazioni

Puoi includere un massimo di tre immagini per richiesta.
L'endpoint MaaS non utilizza Llama Guard, a differenza delle versioni precedenti. Per utilizzare Llama Guard, esegui il deployment di Llama Guard da Model Garden e poi invia i prompt e le risposte a quell'endpoint. Tuttavia, rispetto a Llama 4, Llama Guard ha un contesto più limitato (128.000) e può elaborare solo richieste con una singola immagine all'inizio del prompt.
Le previsioni in batch non sono supportate.

Vai alla scheda del modello Llama 4

Llama 3.3

Llama 3.3 è un modello ottimizzato per le istruzioni di 70 miliardi di byte solo testo che offre prestazioni superiori rispetto a Llama 3.1 70B e Llama 3.2 90B se utilizzato per applicazioni solo testo.

Vai alla scheda del modello Llama 3.3

Durante il periodo di anteprima, ti vengono addebitati gli importi man mano che utilizzi il modello (a consumo). Per i prezzi di pagamento a consumo, consulta i prezzi dei modelli Llama nella pagina dei prezzi di Vertex AI.

Llama 3.2

Llama 3.2 consente agli sviluppatori di creare ed eseguire il deployment dei modelli di IA generativa più recenti e di applicazioni che utilizzano le funzionalità più recenti di Llama, come il ragionamento sulle immagini. Llama 3.2 è progettato anche per essere più accessibile per le applicazioni sul dispositivo.

Vai alla scheda del modello Llama 3.2

Non sono previsti costi durante il periodo di anteprima. Se hai bisogno di un servizio pronto per la produzione, utilizza i modelli Llama self-hosted.

Considerazioni

Quando utilizzi llama-3.2-90b-vision-instruct-maas, non ci sono limitazioni per l'invio di prompt solo testo. Tuttavia, se includi un'immagine nel prompt, deve essere all'inizio del prompt e puoi includere una sola immagine. Ad esempio, non puoi includere del testo e poi un'immagine.

Llama 3.1

Llama 3.1 è un modello linguistico autoregressivo che utilizza un'architettura Transformer ottimizzata. Le versioni ottimizzate utilizzano l'ottimizzazione fine supervisionata (SFT) e l'apprendimento per rinforzo con feedback umano (RLHF) per allinearsi alle preferenze degli esseri umani in termini di utilità e sicurezza.

Llama 3.1 405B è disponibile pubblicamente. Gli addebiti vengono effettuati man mano che utilizzi il modello (a consumo). Per i prezzi di pagamento a consumo, consulta i prezzi dei modelli Llama nella pagina dei prezzi di Vertex AI.

Gli altri modelli Llama 3.1 sono in anteprima. Non sono previsti costi per i modelli di anteprima. Se hai bisogno di un servizio pronto per la produzione, utilizza i modelli Llama auto-hosted.

Vai alla scheda del modello Llama 3.1

Utilizzare i modelli di Llama

Quando invii richieste per utilizzare i modelli di Llama, utilizza il seguente modello nomi:

Per Llama 4 Maverick 17B-128E, utilizza llama-4-maverick-17b-128e-instruct-maas.
Per Llama 4 Scout 17B-16E, utilizza llama-4-scout-17b-16e-instruct-maas.
Per Llama 3.3 70B, utilizza llama-3.3-70b-instruct-maas.
Per Llama 3.2 90B (anteprima), utilizza llama-3.2-90b-vision-instruct-maas.
Per Llama 3.1 405B (GA), utilizza llama-3.1-405b-instruct-maas.
Per Llama 3.1 70B (anteprima), utilizza llama-3.1-70b-instruct-maas.
Per Llama 3.1 8B (anteprima), utilizza llama-3.1-8b-instruct-maas.

Ti consigliamo di utilizzare le versioni del modello che includono un suffisso che inizia con un simbolo @ a causa delle possibili differenze tra le versioni del modello. Se non specifichi una versione del modello, viene sempre utilizzata la versione più recente, il che può influire inavvertitamente sui tuoi flussi di lavoro quando una versione del modello cambia.

Prima di iniziare

Per utilizzare i modelli Llama con Vertex AI, devi eseguire i seguenti passaggi. Per utilizzare Vertex AI, è necessario attivare l'API Vertex AI (aiplatform.googleapis.com). Se hai già un progetto esistente con l'API Vertex AI abilitata, puoi utilizzarlo anziché crearne uno nuovo.

Assicurati di disporre delle autorizzazioni necessarie per attivare e utilizzare i modelli di partner. Per ulteriori informazioni, consulta Concedere le autorizzazioni richieste.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

Vai a una delle seguenti schede del modello di Model Garden e fai clic su Abilita:

Fai una chiamata in streaming a un modello Llama

L'esempio seguente effettua una chiamata in streaming a un modello Llama.

REST

Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. Il seguente esempio invia una richiesta all'endpoint del modello del publisher.

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

LOCATION: una regione che supporta Modelli di Llama.
MODEL: il nome del modello che vuoi utilizzare.
ROLE: il ruolo associato a un messaggio. Puoi specificare un user o un assistant. Il primo messaggio deve utilizzare il ruolo user. I modelli funzionano con curve user e assistant alternate. Se il messaggio finale utilizza il ruolo assistant, i contenuti della risposta continuano immediatamente da quelli del messaggio. Puoi usarli per limitare parte della risposta del modello.
CONTENT: i contenuti, ad esempio il testo, del messaggio user o assistant.
MAX_OUTPUT_TOKENS: Numero massimo di token che possono essere generati nella risposta. Un token equivale a circa quattro caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe.
STREAM: un valore booleano che specifica se la risposta viene trasmessa in streaming o meno. Trasmetti la risposta in streaming per ridurre la percezione della latenza di utilizzo finale. Imposta su true per trasmettere la risposta in streaming e su false per restituirla tutta in una volta.
ENABLE_LLAMA_GUARD: un valore booleano che specifica se attivare Llama Guard sugli ingressi e sulle uscite. Per impostazione predefinita, Llama Guard è attivata e segnala le risposte se ritiene che non siano sicure.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

Corpo JSON della richiesta:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": true,
  "extra_body": {
    "google": {
      "model_safety_settings": {
        "enabled": ENABLE_LLAMA_GUARD,
        "llama_guard_settings": {}
      }
    }
  }
}

Per inviare la richiesta, scegli una delle seguenti opzioni:

curl

Nota: il seguente comando presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login oppure utilizzando Cloud Shell, che ti consente di accedere automaticamente all'interfaccia a riga di comando gcloud. Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Nota: il comando seguente presuppone che tu abbia eseguito l'accesso alla CLI gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login . Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente.

Risposta

data: {
  "choices": [
    {
      "delta": {
        "content": "CONTENT",
        "role": "assistant",
        "refusal: "REFUSAL_REASON" #If using Llama Guard and response was flagged by Llama Guard
      },
      "index": 0
    }
  ],
  "model": "meta/MODEL_NAME",
  "object": "chat.completion.chunk"
}

data: {
  "choices": [
    {
      "delta": {
        "content": "CONTENT",
        "role": "assistant"
      },
      "finish_reason": "stop",
      "index": 0
    }
  ],
  "model": "meta/MODEL_NAME",
  "object": "chat.completion.chunk",
  "usage": {
    "completion_tokens": 131,
    "prompt_tokens": 14,
    "total_tokens": 145
  }
}

Fai una chiamata unaria a un modello Llama

L'esempio seguente esegue una chiamata unaria a un modello Llama.

REST

Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. Il seguente esempio invia una richiesta all'endpoint del modello del publisher.

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

LOCATION: una regione che supporta Modelli di Llama.
MODEL: il nome del modello che vuoi utilizzare.
ROLE: il ruolo associato a un messaggio. Puoi specificare un user o un assistant. Il primo messaggio deve utilizzare il ruolo user. I modelli funzionano con curve user e assistant alternate. Se il messaggio finale utilizza il ruolo assistant, i contenuti della risposta continuano immediatamente da quelli del messaggio. Puoi usarlo per limitare parte della risposta del modello.
CONTENT: i contenuti, ad esempio il testo, del messaggio user o assistant.
MAX_OUTPUT_TOKENS: Numero massimo di token che possono essere generati nella risposta. Un token equivale a circa quattro caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe.
STREAM: un valore booleano che specifica se la risposta viene trasmessa in streaming o meno. Trasmetti la risposta in streaming per ridurre la percezione della latenza di utilizzo finale. Imposta su true per trasmettere la risposta in streaming e su false per restituirla tutta in una volta.
ENABLE_LLAMA_GUARD: un valore booleano che specifica se attivare Llama Guard sugli ingressi e sulle uscite. Per impostazione predefinita, Llama Guard è attivata e segnala le risposte se ritiene che non siano sicure.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

Corpo JSON della richiesta:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": false,
  "extra_body": {
    "google": {
      "model_safety_settings": {
        "enabled": ENABLE_LLAMA_GUARD,
        "llama_guard_settings": {}
      }
    }
  }
}

Per inviare la richiesta, scegli una delle seguenti opzioni:

curl

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente.

Risposta

{
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "message": {
        "content": "CONTENT",
        "role": "assistant",
        "refusal: "REFUSAL_REASON" #If using Llama Guard and response was flagged by Llama Guard
      }
    }
  ],
  "model": "meta/llama3-405b-instruct-maas",
  "object": "chat.completion",
  "usage": {
    "completion_tokens": 367,
    "prompt_tokens": 14,
    "total_tokens": 381
  }
}

Risposte segnalate

Per impostazione predefinita, Llama Guard 3 8B è attivato per tutte le previsioni effettuate con i modelli Llama 3.3 e Llama 3.1. Per impostazione predefinita, la visione di Llama Guard 3 11B è attivata su tutte le previsioni effettuate con i modelli Llama 3.2. Llama Guard contribuisce a proteggere le risposte controllando gli input e gli output. Se Llama Guard rileva che non sono sicuri, segnala la risposta.

Se vuoi disattivare Llama Guard, modifica l'impostazione di sicurezza del modello. Per ulteriori informazioni, consulta il campo model_safety_settings nell'esempio streaming o unario.

Utilizzare Vertex AI Studio

Per i modelli Llama, puoi utilizzare Vertex AI Studio per creare rapidamente un prototipo e testare i modelli di IA generativa nella Google Cloud console. Ad esempio, puoi utilizzare Vertex AI Studio per confrontare le risposte del modello Llama con quelle di altri modelli supportati, come Gemini di Google.

Per ulteriori informazioni, consulta la guida rapida Invia prompt di testo a Gemini utilizzando Vertex AI Studio.

Disponibilità e quote per la regione del modello Llama

Per i modelli Llama, viene applicata una quota per ogni regione in cui il modello è disponibile. La quota è specificata in query al minuto (QPM).

Le regioni supportate, le quote predefinite e la lunghezza massima del contesto per ciascun Il modello Llama è elencato nelle seguenti tabelle:

Llama 4 Maverick 17B-128E

Regione	Sistema di quote	Lunghezza del contesto supportata
`us-east5`	60 QPM	524.288 token

Llama 4 Scout 17B-16E

Regione	Sistema di quote	Lunghezza del contesto supportata
`us-east5`	60 QPM	1.310.720 token

Llama 3.3 70B

Regione	Sistema di quote	Lunghezza del contesto supportata
`us-central1`	30 QPM	128.000 token

Llama 3.2 90B (anteprima)

Regione	Sistema di quote	Lunghezza del contesto supportata
`us-central1`	30 QPM	128.000 token

Llama 3.1 405B (versione GA)

Regione	Sistema di quote	Lunghezza del contesto supportata
`us-central1`	60 QPM	128.000 token

Llama 3.1 70B (anteprima)

Regione	Sistema di quote	Lunghezza del contesto supportata
`us-central1`	60 QPM	128.000 token

Llama 3.1 8B (anteprima)

Regione	Sistema di quote	Lunghezza del contesto supportata
`us-central1`	60 QPM	128.000 token

Se vuoi aumentare una delle quote per l'IA generativa su Vertex AI, puoi utilizzare la Google Cloud console per richiedere un aumento di quota. Per scoprire di più sulle quote, consulta Utilizzo delle quote.

Modelli di Llama Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Modelli di Llama disponibili

Llama 4 Maverick 17B-128E

Considerazioni

Llama 4 Scout 17B-16E

Considerazioni

Llama 3.3

Llama 3.2

Considerazioni

Llama 3.1

Utilizzare i modelli di Llama

Prima di iniziare

Fai una chiamata in streaming a un modello Llama

REST

curl

PowerShell

Risposta

Fai una chiamata unaria a un modello Llama

REST

curl

PowerShell

Risposta

Risposte segnalate

Utilizzare Vertex AI Studio

Disponibilità e quote per la regione del modello Llama

Llama 4 Maverick 17B-128E

Llama 4 Scout 17B-16E

Llama 3.3 70B

Llama 3.2 90B (anteprima)

Llama 3.1 405B (versione GA)

Llama 3.1 70B (anteprima)

Llama 3.1 8B (anteprima)

Modelli di Llama
Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.