Esegui la migrazione dell'applicazione a Gemini 2 con l'API Gemini di Vertex AI

Questa guida mostra come eseguire la migrazione delle applicazioni di IA generativa dai modelli Gemini 1.x e PaLM ai modelli Gemini 2.

Perché eseguire la migrazione a Gemini 2?

Gemini 2 offre miglioramenti significativi delle prestazioni rispetto ai modelli Gemini 1.x e PaLM, oltre a nuove funzionalità. Inoltre, ogni versione del modello ha il proprio periodo di supporto e disponibilità.

L'upgrade della maggior parte delle applicazioni di IA generativa a Gemini 2 non dovrebbe richiedere un'ingegnerizzazione inversa significativa dei prompt o del codice. Tuttavia, alcune applicazioni richiedono modifiche rapide e queste modifiche sono difficili da prevedere senza prima eseguire un prompt tramite Gemini 2. Pertanto, è consigliabile eseguire i test di Gemini 2 prima della migrazione.

Modifiche significative al codice sono necessarie solo per alcune modifiche non compatibili o per utilizzare le nuove funzionalità di Gemini 2.

A quale modello Gemini 2 devo eseguire la migrazione?

Quando scegli un modello Gemini 2 a cui eseguire la migrazione, ti consigliamo di prendere in considerazione le funzionalità richieste dalla tua applicazione, nonché il costo di queste funzionalità.

Per una panoramica delle funzionalità del modello Gemini 2, consulta Gemini 2. Per una panoramica di tutti i modelli Google, consulta Modelli Google.

Per un confronto tra i modelli Gemini 1.x e Gemini 2, consulta la tabella seguente.

Funzionalità Gemini 1.0 Pro Gemini 1.5 Pro Gemini 1.5 Flash Gemini 2.0 Flash Gemini 2.0 Flash-Lite
Modalità di input testo testo, documenti, immagine, video, audio testo, documenti, immagine, video, audio testo, documenti, immagine, video, audio testo, documenti, immagine, video, audio
Modalità di output testo testo testo testo testo
Finestra di contesto, limite di token totale 32.760 2.097.152 1.048.576 1.048.576 1.048.576
Lunghezza del contesto di output 8.192 8.192 8.192 8.192 8.192
Grounding con la Ricerca No No
Chiamata di funzione No
Esecuzione del codice No No No No
Memorizzazione nella cache del contesto No No
Previsione batch No
API Live No No No No No
Latenza Più lento di 1.5 Flash Il più capace nel gruppo Famiglia 1.5 Più veloce nella famiglia 1.5 Veloce ed economico Veloce e più conveniente
Perfezionamento
SDK consigliato SDK Vertex AI SDK Vertex AI SDK Vertex AI SDK Gen AI SDK Gen AI
Unità di prezzo Basato su caratteri Basato su caratteri Basato su caratteri Token Token

Prima di iniziare

Per una migrazione a Gemini 2 senza problemi, ti consigliamo di risolvere i seguenti problemi prima di iniziare la procedura di migrazione.

Consapevolezza del ritiro dei modelli

Tieni presente le tempistiche di disponibilità e supporto delle versioni dei modelli per i modelli Gemini precedenti e assicurati di completare la migrazione prima del ritiro del modello in uso.

InfoSec, governance e approvazioni di legge

Richiedi in modo proattivo le approvazioni necessarie per Gemini 2 ai tuoi stakeholder per la sicurezza delle informazioni (InfoSec), i rischi e la conformità. Assicurati di coprire i vincoli di conformità e rischio specifici del dominio, in particolare in settori fortemente regolamentati come la sanità e i servizi finanziari. Tieni presente che i controlli di sicurezza di Gemini sono diversi nei modelli Gemini 2.

Disponibilità della stazione di ricarica

Consulta la documentazione relativa alla disponibilità dei modelli di AI generativa su Google Cloud e dei modelli dei partner e assicurati che il modello Gemini 2 scelto sia disponibile nelle regioni in cui ti serve.

Differenze di prezzo in base alla modalità e alla tokenizzazione

Controlla i prezzi di Gemini 2 per tutte le modalità (testo, codice, immagini, voce) nella tua applicazione. Per ulteriori informazioni, consulta la pagina dei prezzi dell'IA generativa. Tieni presente che l'input e l'output di testo di Gemini 2 hanno un prezzo per token, mentre l'input e l'output di testo di Gemini 1 hanno un prezzo per carattere.

Throughput riservato

Se necessario, acquista throughput Provisioning aggiuntivo per Gemini 2 o modifica gli ordini di throughput Provisioning esistenti.

Ottimizzazione fine supervisionata

Se la tua applicazione Gemini utilizza la ottimizzazione fine supervisionata, invia un nuovo job di ottimizzazione con Gemini 2. Ti consigliamo di iniziare con gli iperparametri di ottimizzazione predefiniti anziché riutilizzare i valori degli iperparametri che hai utilizzato con le versioni precedenti di Gemini. Il servizio di ottimizzazione è stato ottimizzato per Gemini 2. Pertanto, il riutilizzo dei valori degli iperparametri precedenti potrebbe non produrre i risultati migliori.

Test di regressione

Esistono tre tipi principali di test di regressione coinvolti durante l'upgrade ai modelli Gemini 2:

  • Test di regressione del codice: test di regressione dal punto di vista della progettazione del software e di DevOps. Questo tipo di test di regressione è sempre obbligatorio.
  • Test di regressione sul rendimento del modello: test di regressione dal punto di vista della scienza dei dati o del machine learning. Ciò significa assicurarsi che il nuovo modello Gemini 2 fornisca output di qualità almeno pari a quelli dell'attuale modello di produzione. I test di regressione del rendimento del modello sono solo valutazioni del modello eseguite nell'ambito di una modifica a un sistema o al modello sottostante. I test di regressione delle prestazioni del modello si suddividono ulteriormente in:
    • Test delle prestazioni del modello offline: valutazione della qualità degli output del modello in un ambiente di sperimentazione dedicato in base a varie metriche di qualità degli output del modello.
    • Test di rendimento del modello online: valutazione della qualità degli output del modello in un deployment online in tempo reale in base al feedback implicito o esplicito degli utenti.
  • Test di carico: valuta come l'applicazione gestisce elevati volumi di richieste di inferenza. Questo tipo di test di regressione è obbligatorio per le applicazioni che richiedono la velocità effettiva sottoposta a provisioning.

Documentare i requisiti di test e valutazione del modello

  1. Preparati a ripetere eventuali valutazioni pertinenti eseguite al momento della creazione iniziale della tua applicazione, nonché quelle che hai eseguito da allora.
  2. Se ritieni che le valutazioni esistenti non coprano o misurino in modo appropriato l'ampiezza delle attività eseguite dalla tua applicazione, devi progettare e preparare valutazioni aggiuntive.
  3. Se la tua applicazione prevede l'utilizzo di RAG, di strumenti, di flussi di lavoro complessi con agenti o di catene di prompt, assicurati che i dati di valutazione esistenti consentano di valutare ciascun componente in modo indipendente. In caso contrario, raccogli esempi di input-output per ciascun componente.
  4. Se la tua applicazione ha un impatto particolarmente elevato o se fa parte di un sistema più grande in tempo reale rivolto agli utenti, devi includere la valutazione online.

Upgrade e test del codice

Valuta la possibilità di eseguire l'upgrade all'SDK Google Gen AI

Se la tua applicazione Gemini 1.x utilizza l'SDK Vertex AI, valuta la possibilità di eseguire l'upgrade all'SDK Gen AI. Le nuove funzionalità di Gemini 2 sono disponibili solo nell'SDK Gen AI. Tuttavia, non è necessario passare all'SDK Gen AI se la tua applicazione richiede solo le funzionalità disponibili nell'SDK Vertex AI. Se non hai mai utilizzato l'SDK Gen AI, consulta il notebook Introduzione all'IA generativa di Google con l'SDK Gen AI.

SDK IA gen.

Ti consigliamo di eseguire la migrazione all'SDK Gen AI quando esegui l'upgrade a Gemini 2.0.

Se scegli di utilizzare l'SDK Gen AI, la procedura di configurazione è diversa da quella dell'SDK Vertex AI.

Per ulteriori informazioni, visita la pagina Google Gen AI SDK.

Installa

pip install --upgrade google-genai

Per saperne di più, consulta la documentazione di riferimento dell'SDK.

Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
    model="gemini-2.0-flash-001",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

Sostituisci GOOGLE_CLOUD_PROJECT con il tuo Google Cloud ID progetto e GOOGLE_CLOUD_LOCATION con la posizione del tuo Google Cloud progetto (ad esempious-central1).

SDK Vertex AI

Se riutilizzi l'SDK Vertex AI, la procedura di configurazione è la stessa per i modelli 1.0, 1.5 e 2.0. Per ulteriori informazioni, consulta Introduzione all'SDK Vertex AI per Python.

Installa l'SDK:

pip install --upgrade --quiet google-cloud-aiplatform

Di seguito è riportato un breve esempio di codice che utilizza l'SDK Vertex AI per Python:

import vertexai
from vertexai.generative_models import GenerativeModel

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"
vertexai.init(project=PROJECT_ID, location="us-central1")

model = GenerativeModel("gemini-2.0-flash-001")

response = model.generate_content(
    "What's a good name for a flower shop that specializes in selling bouquets of dried flowers?"
)

print(response.text)
# Example response:
# **Emphasizing the Dried Aspect:**
# * Everlasting Blooms
# * Dried & Delightful
# * The Petal Preserve
# ...

Sostituisci PROJECT_ID con il tuo ID progetto Google Cloud e LOCATION con la posizione del tuo progetto Google Cloud (ad esempious-central1). Quindi, modifica l'ID modello da gemini-1.5-flash-002 a gemini-2.0-flash.

Modificare le chiamate di Gemini

Modifica il codice di previsione per utilizzare Gemini 2. Come minimo, significa cambiare il nome dell'endpoint del modello specifico in un modello Gemini 2 in cui carichi il modello.

La modifica esatta del codice varia a seconda di come hai implementato inizialmente la tua applicazione e, in particolare, se hai utilizzato l'SDK IA generativa o l'SDK Vertex AI.

Dopo aver apportato le modifiche al codice, esegui test di regressione del codice e altri test di software sul codice per assicurarti che venga eseguito. Questo test ha lo scopo di valutare unicamente se il codice funziona correttamente. Non ha lo scopo di valutare la qualità delle risposte del modello.

Risolvere i problemi causati dalle modifiche al codice

In questo passaggio, concentrati solo sulle modifiche al codice. Potresti dover apportare altre modifiche, ma aspetta di iniziare la valutazione e poi valuta la possibilità di apportare le seguenti modifiche in base ai risultati della valutazione:

  • Se passi dal recupero dinamico, potresti dover fare esperimenti con le istruzioni di sistema per controllare quando viene utilizzata la Ricerca Google (ad esempio "Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."), ma attendi di eseguire la valutazione prima di apportare modifiche immediate.
  • Se hai utilizzato il parametro Top-K, modifica altri parametri di campionamento dei token, ad esempio Top-P, per ottenere risultati simili.

Valutazione offline

Ripeti la valutazione che hai eseguito quando hai sviluppato e lanciato inizialmente la tua applicazione, eventuali altre valutazioni offline eseguite dopo il lancio e qualsiasi altra valutazione identificata nel passaggio 1. Se poi ritenga che la valutazione non descriva completamente l'ampiezza e la profondità della sua applicazione, esegui un'ulteriore valutazione.

Se non disponi di un modo automatico per eseguire le valutazioni offline, ti consigliamo di utilizzare il servizio di valutazione dell'IA generativa.

Se la tua applicazione utilizza la messa a punto fine, esegui la valutazione offline prima di ottimizzare nuovamente il modello con Gemini 2. La qualità di output migliorata di Gemini 2 potrebbe indicare che la tua applicazione non richiede più un modello ottimizzato.

Valutare i risultati della valutazione e ottimizzare i prompt e gli iperparametri di Gemini 2

Se la valutazione offline mostra un calo delle prestazioni con Gemini 2, esegui l'iterazione dell'applicazione come segue finché le prestazioni di Gemini non corrispondono a quelle del modello precedente:

Test di carico

Se la tua applicazione richiede una determinata velocità in uscita minima, esegui test di carico per assicurarti che la versione Gemini 2 della tua applicazione soddisfi i requisiti di velocità in uscita.

I test di carico devono essere eseguiti prima della valutazione online, perché questa richiede l'esposizione di Gemini 2 al traffico di produzione. Per eseguire questo passaggio, utilizza la tua instrumentation di test di carico esistente.

Se la tua applicazione soddisfa già i requisiti di throughput, ti consigliamo di utilizzare Throughput pianificato. Avrai bisogno di un throughput Provisioning a breve termine aggiuntivo per coprire i test di carico mentre l'ordine di throughput Provisioning esistente continua a gestire il traffico di produzione.

Valutazione online

Procedi alla valutazione online solo se la valutazione offline mostra una qualità adeguata dell'output di Gemini e la tua applicazione richiede la valutazione online.

La valutazione online è un caso speciale di test online. Prova a utilizzare gli strumenti e le procedure esistenti della tua organizzazione per la valutazione online. Ad esempio:

  • Se la tua organizzazione esegue regolarmente test A/B, esegui un test A/B che valuti l'implementazione attuale della tua applicazione rispetto alla versione Gemini 2.
  • Se la tua organizzazione esegue regolarmente deployment Canary, assicurati di farlo con Gemini 2 e di misurare le differenze nel comportamento degli utenti.

La valutazione online può essere eseguita anche integrando nella tua applicazione nuove funzionalità di feedback e misurazione. Le funzionalità di misurazione e feedback diverse sono appropriate per applicazioni diverse. Ad esempio:

  • Aggiunta di pulsanti Mi piace e Non mi piace accanto alle uscite del modello e confronto tra i tassi di Mi piace e Non mi piace di un modello precedente e di Gemini 2.
  • Presentare agli utenti le uscite del modello precedente e di Gemini 2 affiancate e chiedere loro di scegliere la preferita.
  • Monitoraggio della frequenza con cui gli utenti sostituiscono o regolano manualmente i risultati del modello precedente rispetto a quelli di Gemini 2.

Questi tipi di meccanismi di feedback spesso richiedono l'esecuzione di una versione Gemini 2 della tua applicazione in parallelo alla versione esistente. Questo deployment parallelo è a volte chiamato "modalità shadow" o "deployment blue-green".

Se i risultati della valutazione online differiscono notevolmente da quelli della valutazione offline, la valutazione offline non acquisisce aspetti chiave dell'ambiente in tempo reale o dell'esperienza utente. Utilizza i risultati della valutazione online per elaborare una nuova valutazione offline che copra la lacuna rilevata dalla valutazione online, quindi ritornerai al passaggio 3.

Se utilizzi la funzionalità Throughput Provisioning, potresti dover acquistare ulteriore Throughput Provisioning a breve termine per continuare a soddisfare i requisiti di throughput per gli utenti soggetti a valutazione online.

Deployment in produzione

Una volta che la valutazione mostra che Gemini 2 soddisfa o supera le prestazioni di un modello precedente, disattiva la versione esistente della tua applicazione in favore della versione Gemini 2. Segui le procedure esistenti della tua organizzazione per l'implementazione in produzione.

Se utilizzi il throughput riservato, modifica l'ordine del throughput riservato in base al modello Gemini 2 scelto. Se stai implementando l'applicazione in modo incrementale, utilizza il throughput provisionato a breve termine per soddisfare i requisiti di throughput per due diversi modelli Gemini.

Migliorare le prestazioni del modello

Al termine della migrazione, segui questi suggerimenti per massimizzare il rendimento del modello Gemini 2:

  • Controlla le istruzioni di sistema, i prompt e gli esempi di apprendimento con pochi esempi per verificare la presenza di incoerenze, contraddizioni o istruzioni ed esempi non pertinenti.
  • Prova un modello più potente. Ad esempio, se hai valutato Gemini 2.0 Flash-Lite, prova Gemini 2.0 Flash.
  • Esamina i risultati della valutazione automatica per assicurarti che corrispondano al giudizio umano, in particolare i risultati che utilizzano un modello di giudice. Assicurati che le istruzioni del modello di valutazione non contengano incoerenze o ambiguità.
  • Un modo per migliorare le istruzioni del modello di valutazione è testarle su più persone in modo isolato e verificare se i loro giudizi sono coerenti. Se gli esseri umani interpretano le istruzioni in modo diverso e formulano giudizi diversi, le istruzioni del modello di giudice sono ambigue.
  • Ottimizza il modello Gemini 2.
  • Esamina gli output della valutazione per cercare schemi che mostrano tipi specifici di errori. Raggruppare gli errori in modelli, tipi o categorie diversi ti consente di ottenere dati di valutazione più mirati, il che semplifica la modifica dei prompt per risolvere questi errori.
  • Assicurati di valutare in modo indipendente i diversi componenti dell'IA generativa.
  • Prova a modificare i parametri di campionamento dei token.

Assistenza

Se hai bisogno di aiuto, Google Cloud offre pacchetti di assistenza per soddisfare le tue esigenze, come copertura 24/7, assistenza telefonica e accesso a un responsabile dell'assistenza tecnica. Per ulteriori informazioni, consulta la pagina Google Cloud Assistenza.

Passaggi successivi