Questa guida mostra come eseguire la migrazione delle applicazioni di IA generativa dai modelli Gemini 1.x e PaLM ai modelli Gemini 2.
Perché eseguire la migrazione a Gemini 2?
Gemini 2 offre miglioramenti significativi delle prestazioni rispetto ai modelli Gemini 1.x e PaLM, oltre a nuove funzionalità. Inoltre, ogni versione del modello ha il proprio periodo di supporto e disponibilità.
L'upgrade della maggior parte delle applicazioni di IA generativa a Gemini 2 non dovrebbe richiedere un'ingegnerizzazione inversa significativa dei prompt o del codice. Tuttavia, alcune applicazioni richiedono modifiche rapide e queste modifiche sono difficili da prevedere senza prima eseguire un prompt tramite Gemini 2. Pertanto, è consigliabile eseguire i test di Gemini 2 prima della migrazione.
Modifiche significative al codice sono necessarie solo per alcune modifiche non compatibili o per utilizzare le nuove funzionalità di Gemini 2.
A quale modello Gemini 2 devo eseguire la migrazione?
Quando scegli un modello Gemini 2 a cui eseguire la migrazione, ti consigliamo di prendere in considerazione le funzionalità richieste dalla tua applicazione, nonché il costo di queste funzionalità.
Per una panoramica delle funzionalità del modello Gemini 2, consulta Gemini 2. Per una panoramica di tutti i modelli Google, consulta Modelli Google.
Per un confronto tra i modelli Gemini 1.x e Gemini 2, consulta la tabella seguente.
Funzionalità | Gemini 1.0 Pro | Gemini 1.5 Pro | Gemini 1.5 Flash | Gemini 2.0 Flash | Gemini 2.0 Flash-Lite |
---|---|---|---|---|---|
Modalità di input | testo | testo, documenti, immagine, video, audio | testo, documenti, immagine, video, audio | testo, documenti, immagine, video, audio | testo, documenti, immagine, video, audio |
Modalità di output | testo | testo | testo | testo | testo |
Finestra di contesto, limite di token totale | 32.760 | 2.097.152 | 1.048.576 | 1.048.576 | 1.048.576 |
Lunghezza del contesto di output | 8.192 | 8.192 | 8.192 | 8.192 | 8.192 |
Grounding con la Ricerca | No | Sì | Sì | Sì | No |
Chiamata di funzione | No | Sì | Sì | Sì | Sì |
Esecuzione del codice | No | No | No | Sì | No |
Memorizzazione nella cache del contesto | No | Sì | Sì | Sì | No |
Previsione batch | No | Sì | Sì | Sì | Sì |
API Live | No | No | No | No | No |
Latenza | Più lento di 1.5 Flash | Il più capace nel gruppo Famiglia 1.5 | Più veloce nella famiglia 1.5 | Veloce ed economico | Veloce e più conveniente |
Perfezionamento | Sì | Sì | Sì | Sì | Sì |
SDK consigliato | SDK Vertex AI | SDK Vertex AI | SDK Vertex AI | SDK Gen AI | SDK Gen AI |
Unità di prezzo | Basato su caratteri | Basato su caratteri | Basato su caratteri | Token | Token |
Prima di iniziare
Per una migrazione a Gemini 2 senza problemi, ti consigliamo di risolvere i seguenti problemi prima di iniziare la procedura di migrazione.
Consapevolezza del ritiro dei modelli
Tieni presente le tempistiche di disponibilità e supporto delle versioni dei modelli per i modelli Gemini precedenti e assicurati di completare la migrazione prima del ritiro del modello in uso.
InfoSec, governance e approvazioni di legge
Richiedi in modo proattivo le approvazioni necessarie per Gemini 2 ai tuoi stakeholder per la sicurezza delle informazioni (InfoSec), i rischi e la conformità. Assicurati di coprire i vincoli di conformità e rischio specifici del dominio, in particolare in settori fortemente regolamentati come la sanità e i servizi finanziari. Tieni presente che i controlli di sicurezza di Gemini sono diversi nei modelli Gemini 2.
Disponibilità della stazione di ricarica
Consulta la documentazione relativa alla disponibilità dei modelli di AI generativa su Google Cloud e dei modelli dei partner e assicurati che il modello Gemini 2 scelto sia disponibile nelle regioni in cui ti serve.
Differenze di prezzo in base alla modalità e alla tokenizzazione
Controlla i prezzi di Gemini 2 per tutte le modalità (testo, codice, immagini, voce) nella tua applicazione. Per ulteriori informazioni, consulta la pagina dei prezzi dell'IA generativa. Tieni presente che l'input e l'output di testo di Gemini 2 hanno un prezzo per token, mentre l'input e l'output di testo di Gemini 1 hanno un prezzo per carattere.
Throughput riservato
Se necessario, acquista throughput Provisioning aggiuntivo per Gemini 2 o modifica gli ordini di throughput Provisioning esistenti.
Ottimizzazione fine supervisionata
Se la tua applicazione Gemini utilizza la ottimizzazione fine supervisionata, invia un nuovo job di ottimizzazione con Gemini 2. Ti consigliamo di iniziare con gli iperparametri di ottimizzazione predefiniti anziché riutilizzare i valori degli iperparametri che hai utilizzato con le versioni precedenti di Gemini. Il servizio di ottimizzazione è stato ottimizzato per Gemini 2. Pertanto, il riutilizzo dei valori degli iperparametri precedenti potrebbe non produrre i risultati migliori.
Test di regressione
Esistono tre tipi principali di test di regressione coinvolti durante l'upgrade ai modelli Gemini 2:
- Test di regressione del codice: test di regressione dal punto di vista della progettazione del software e di DevOps. Questo tipo di test di regressione è sempre obbligatorio.
- Test di regressione sul rendimento del modello: test di regressione dal punto di vista della scienza dei dati o del machine learning. Ciò significa assicurarsi che il nuovo modello Gemini 2 fornisca output di qualità almeno pari a quelli dell'attuale modello di produzione.
I test di regressione del rendimento del modello sono solo valutazioni del modello eseguite nell'ambito di una modifica a un sistema o al modello sottostante.
I test di regressione delle prestazioni del modello si suddividono ulteriormente in:
- Test delle prestazioni del modello offline: valutazione della qualità degli output del modello in un ambiente di sperimentazione dedicato in base a varie metriche di qualità degli output del modello.
- Test di rendimento del modello online: valutazione della qualità degli output del modello in un deployment online in tempo reale in base al feedback implicito o esplicito degli utenti.
- Test di carico: valuta come l'applicazione gestisce elevati volumi di richieste di inferenza. Questo tipo di test di regressione è obbligatorio per le applicazioni che richiedono la velocità effettiva sottoposta a provisioning.
Documentare i requisiti di test e valutazione del modello
- Preparati a ripetere eventuali valutazioni pertinenti eseguite al momento della creazione iniziale della tua applicazione, nonché quelle che hai eseguito da allora.
- Se ritieni che le valutazioni esistenti non coprano o misurino in modo appropriato l'ampiezza delle attività eseguite dalla tua applicazione, devi progettare e preparare valutazioni aggiuntive.
- Se la tua applicazione prevede l'utilizzo di RAG, di strumenti, di flussi di lavoro complessi con agenti o di catene di prompt, assicurati che i dati di valutazione esistenti consentano di valutare ciascun componente in modo indipendente. In caso contrario, raccogli esempi di input-output per ciascun componente.
- Se la tua applicazione ha un impatto particolarmente elevato o se fa parte di un sistema più grande in tempo reale rivolto agli utenti, devi includere la valutazione online.
Upgrade e test del codice
Valuta la possibilità di eseguire l'upgrade all'SDK Google Gen AI
Se la tua applicazione Gemini 1.x utilizza l'SDK Vertex AI, valuta la possibilità di eseguire l'upgrade all'SDK Gen AI. Le nuove funzionalità di Gemini 2 sono disponibili solo nell'SDK Gen AI. Tuttavia, non è necessario passare all'SDK Gen AI se la tua applicazione richiede solo le funzionalità disponibili nell'SDK Vertex AI. Se non hai mai utilizzato l'SDK Gen AI, consulta il notebook Introduzione all'IA generativa di Google con l'SDK Gen AI.
SDK IA gen.
Ti consigliamo di eseguire la migrazione all'SDK Gen AI quando esegui l'upgrade a Gemini 2.0.
Se scegli di utilizzare l'SDK Gen AI, la procedura di configurazione è diversa da quella dell'SDK Vertex AI.
Per ulteriori informazioni, visita la pagina Google Gen AI SDK.
Installa
pip install --upgrade google-genai
Per saperne di più, consulta la documentazione di riferimento dell'SDK.
Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Sostituisci GOOGLE_CLOUD_PROJECT
con il tuo Google Cloud ID progetto e GOOGLE_CLOUD_LOCATION
con la posizione del tuo Google Cloud progetto (ad esempious-central1
).
SDK Vertex AI
Se riutilizzi l'SDK Vertex AI, la procedura di configurazione è la stessa per i modelli 1.0, 1.5 e 2.0. Per ulteriori informazioni, consulta Introduzione all'SDK Vertex AI per Python.
Installa l'SDK:
pip install --upgrade --quiet google-cloud-aiplatform
Di seguito è riportato un breve esempio di codice che utilizza l'SDK Vertex AI per Python:
Sostituisci PROJECT_ID
con il tuo ID progetto Google Cloud e LOCATION
con la posizione del tuo progetto Google Cloud (ad esempious-central1
). Quindi, modifica l'ID modello da gemini-1.5-flash-002
a gemini-2.0-flash
.
Modificare le chiamate di Gemini
Modifica il codice di previsione per utilizzare Gemini 2. Come minimo, significa cambiare il nome dell'endpoint del modello specifico in un modello Gemini 2 in cui carichi il modello.
La modifica esatta del codice varia a seconda di come hai implementato inizialmente la tua applicazione e, in particolare, se hai utilizzato l'SDK IA generativa o l'SDK Vertex AI.
Dopo aver apportato le modifiche al codice, esegui test di regressione del codice e altri test di software sul codice per assicurarti che venga eseguito. Questo test ha lo scopo di valutare unicamente se il codice funziona correttamente. Non ha lo scopo di valutare la qualità delle risposte del modello.
Risolvere i problemi causati dalle modifiche al codice
- Ricerca dinamica: passa all'utilizzo di Grounding con la Ricerca Google. Questa funzionalità richiede l'utilizzo dell'SDK Gen AI; non è supportata dall'SDK Vertex AI.
- Filtri dei contenuti: prendi nota delle impostazioni predefinite dei filtri dei contenuti, e modifica il codice se si basa su un valore predefinito modificato.
- Parametro di campionamento dei token
Top-K
: i modelli successivi a gemini-1.0-pro-vision non supportano la modifica del parametroTop-K
.
In questo passaggio, concentrati solo sulle modifiche al codice. Potresti dover apportare altre modifiche, ma aspetta di iniziare la valutazione e poi valuta la possibilità di apportare le seguenti modifiche in base ai risultati della valutazione:
- Se passi dal recupero dinamico, potresti dover fare esperimenti con le istruzioni di sistema per controllare quando viene utilizzata la Ricerca Google (ad esempio
"Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."
), ma attendi di eseguire la valutazione prima di apportare modifiche immediate. - Se hai utilizzato il parametro
Top-K
, modifica altri parametri di campionamento dei token, ad esempioTop-P
, per ottenere risultati simili.
Valutazione offline
Ripeti la valutazione che hai eseguito quando hai sviluppato e lanciato inizialmente la tua applicazione, eventuali altre valutazioni offline eseguite dopo il lancio e qualsiasi altra valutazione identificata nel passaggio 1. Se poi ritenga che la valutazione non descriva completamente l'ampiezza e la profondità della sua applicazione, esegui un'ulteriore valutazione.
Se non disponi di un modo automatico per eseguire le valutazioni offline, ti consigliamo di utilizzare il servizio di valutazione dell'IA generativa.
Se la tua applicazione utilizza la messa a punto fine, esegui la valutazione offline prima di ottimizzare nuovamente il modello con Gemini 2. La qualità di output migliorata di Gemini 2 potrebbe indicare che la tua applicazione non richiede più un modello ottimizzato.
Valutare i risultati della valutazione e ottimizzare i prompt e gli iperparametri di Gemini 2
Se la valutazione offline mostra un calo delle prestazioni con Gemini 2, esegui l'iterazione dell'applicazione come segue finché le prestazioni di Gemini non corrispondono a quelle del modello precedente:
- Progetta in modo iterativo i prompt per migliorare il rendimento ("Hill Climbing"). Se non hai mai utilizzato la salita, consulta la formazione online su Vertex Gemini per la salita. Anche l'ottimizzatore dei prompt di Vertex AI (notebook di esempio) può essere utile.
- Se la tua applicazione si basa già sulla messa a punto, prova a perfezionare Gemini 2.
- Se la tua applicazione è interessata dalle modifiche non compatibili di Retrieval dinamico e Top-K, prova a modificare i parametri di campionamento di prompt e token.
Test di carico
Se la tua applicazione richiede una determinata velocità in uscita minima, esegui test di carico per assicurarti che la versione Gemini 2 della tua applicazione soddisfi i requisiti di velocità in uscita.
I test di carico devono essere eseguiti prima della valutazione online, perché questa richiede l'esposizione di Gemini 2 al traffico di produzione. Per eseguire questo passaggio, utilizza la tua instrumentation di test di carico esistente.
Se la tua applicazione soddisfa già i requisiti di throughput, ti consigliamo di utilizzare Throughput pianificato. Avrai bisogno di un throughput Provisioning a breve termine aggiuntivo per coprire i test di carico mentre l'ordine di throughput Provisioning esistente continua a gestire il traffico di produzione.
Valutazione online
Procedi alla valutazione online solo se la valutazione offline mostra una qualità adeguata dell'output di Gemini e la tua applicazione richiede la valutazione online.
La valutazione online è un caso speciale di test online. Prova a utilizzare gli strumenti e le procedure esistenti della tua organizzazione per la valutazione online. Ad esempio:
- Se la tua organizzazione esegue regolarmente test A/B, esegui un test A/B che valuti l'implementazione attuale della tua applicazione rispetto alla versione Gemini 2.
- Se la tua organizzazione esegue regolarmente deployment Canary, assicurati di farlo con Gemini 2 e di misurare le differenze nel comportamento degli utenti.
La valutazione online può essere eseguita anche integrando nella tua applicazione nuove funzionalità di feedback e misurazione. Le funzionalità di misurazione e feedback diverse sono appropriate per applicazioni diverse. Ad esempio:
- Aggiunta di pulsanti Mi piace e Non mi piace accanto alle uscite del modello e confronto tra i tassi di Mi piace e Non mi piace di un modello precedente e di Gemini 2.
- Presentare agli utenti le uscite del modello precedente e di Gemini 2 affiancate e chiedere loro di scegliere la preferita.
- Monitoraggio della frequenza con cui gli utenti sostituiscono o regolano manualmente i risultati del modello precedente rispetto a quelli di Gemini 2.
Questi tipi di meccanismi di feedback spesso richiedono l'esecuzione di una versione Gemini 2 della tua applicazione in parallelo alla versione esistente. Questo deployment parallelo è a volte chiamato "modalità shadow" o "deployment blue-green".
Se i risultati della valutazione online differiscono notevolmente da quelli della valutazione offline, la valutazione offline non acquisisce aspetti chiave dell'ambiente in tempo reale o dell'esperienza utente. Utilizza i risultati della valutazione online per elaborare una nuova valutazione offline che copra la lacuna rilevata dalla valutazione online, quindi ritornerai al passaggio 3.
Se utilizzi la funzionalità Throughput Provisioning, potresti dover acquistare ulteriore Throughput Provisioning a breve termine per continuare a soddisfare i requisiti di throughput per gli utenti soggetti a valutazione online.
Deployment in produzione
Una volta che la valutazione mostra che Gemini 2 soddisfa o supera le prestazioni di un modello precedente, disattiva la versione esistente della tua applicazione in favore della versione Gemini 2. Segui le procedure esistenti della tua organizzazione per l'implementazione in produzione.
Se utilizzi il throughput riservato, modifica l'ordine del throughput riservato in base al modello Gemini 2 scelto. Se stai implementando l'applicazione in modo incrementale, utilizza il throughput provisionato a breve termine per soddisfare i requisiti di throughput per due diversi modelli Gemini.
Migliorare le prestazioni del modello
Al termine della migrazione, segui questi suggerimenti per massimizzare il rendimento del modello Gemini 2:
- Controlla le istruzioni di sistema, i prompt e gli esempi di apprendimento con pochi esempi per verificare la presenza di incoerenze, contraddizioni o istruzioni ed esempi non pertinenti.
- Prova un modello più potente. Ad esempio, se hai valutato Gemini 2.0 Flash-Lite, prova Gemini 2.0 Flash.
- Esamina i risultati della valutazione automatica per assicurarti che corrispondano al giudizio umano, in particolare i risultati che utilizzano un modello di giudice. Assicurati che le istruzioni del modello di valutazione non contengano incoerenze o ambiguità.
- Un modo per migliorare le istruzioni del modello di valutazione è testarle su più persone in modo isolato e verificare se i loro giudizi sono coerenti. Se gli esseri umani interpretano le istruzioni in modo diverso e formulano giudizi diversi, le istruzioni del modello di giudice sono ambigue.
- Ottimizza il modello Gemini 2.
- Esamina gli output della valutazione per cercare schemi che mostrano tipi specifici di errori. Raggruppare gli errori in modelli, tipi o categorie diversi ti consente di ottenere dati di valutazione più mirati, il che semplifica la modifica dei prompt per risolvere questi errori.
- Assicurati di valutare in modo indipendente i diversi componenti dell'IA generativa.
- Prova a modificare i parametri di campionamento dei token.
Assistenza
Se hai bisogno di aiuto, Google Cloud offre pacchetti di assistenza per soddisfare le tue esigenze, come copertura 24/7, assistenza telefonica e accesso a un responsabile dell'assistenza tecnica. Per ulteriori informazioni, consulta la pagina Google Cloud Assistenza.
Passaggi successivi
- Leggi l'elenco delle domande frequenti.
- Esegui la migrazione dall'API PaLM all'API Gemini di Vertex AI.