El objetivo del almacenamiento en caché de contexto es reducir el costo y la latencia de las solicitudes a Gemini que contienen contenido repetido.
De forma predeterminada, Google almacena automáticamente en caché las entradas de todos los modelos de Gemini para reducir la latencia y acelerar las respuestas de las instrucciones posteriores.
En el caso de los modelos Gemini 2.5 Flash (cantidad mínima de tokens de entrada de 1,024) y Gemini 2.5 Pro (cantidad mínima de tokens de entrada de 2,048), los tokens de entrada almacenados en caché se cobran con un descuento del 75% en relación con los tokens de entrada estándar cuando se produce un acierto de caché.
Consulta la información del token de acierto de caché en el campo de metadatos de las respuestas. Para inhabilitar esta opción, consulta IA generativa y administración de datos.
A través de la API de Vertex AI, puedes crear cachés de contexto y ejercer más control sobre ellas de la siguiente manera:
- Usa una caché de contexto haciendo referencia a su contenido en una solicitud de instrucción con su nombre de recurso.
- Actualizar el tiempo de vencimiento (TTL) de una caché de contexto más allá de los 60 minutos predeterminados
- Borrar una caché de contexto cuando ya no la necesites
También puedes usar la API de Vertex AI para obtener información sobre una caché de contexto.
Ten en cuenta que las solicitudes de almacenamiento en caché que usan la API de Vertex AI cobran tokens de entrada con el mismo descuento del 75% en relación con los tokens de entrada estándar y proporcionan ahorros de costos garantizados. También se cobra un cargo de almacenamiento según la cantidad de tiempo que se almacenan los datos.
Cuándo usar el almacenamiento en caché de contexto
El almacenamiento en caché de contexto es especialmente adecuado para situaciones en las que las solicitudes posteriores hacen referencia de forma reiterada a un contexto inicial sustancial.
Los elementos de contexto almacenados en caché, como una gran cantidad de texto, un archivo de audio o un archivo de video, se pueden usar en solicitudes de instrucciones a la API de Gemini para generar resultados. Las solicitudes que usan la misma caché en el mensaje también incluyen texto único para cada mensaje. Por ejemplo, cada solicitud de instrucción que compone una conversación de chat puede incluir la misma caché de contexto que hace referencia a un video junto con el texto único que comprende cada turno en el chat.
Considera usar el almacenamiento en caché de contexto para casos de uso como los siguientes:
- Chatbots con instrucciones del sistema extensas
- Análisis repetitivo de archivos de video largos
- Consultas recurrentes en conjuntos de documentos grandes
- Análisis frecuentes del repositorio de código o corrección de errores
Rentabilidad a través del almacenamiento en caché
La caché de contexto es una función pagada diseñada para reducir los costos operativos generales. La facturación se basa en los siguientes factores:
- Cantidad de tokens almacenados en caché: Es la cantidad de tokens de entrada almacenados en caché, que se facturan a una tarifa reducida cuando se incluyen en instrucciones posteriores.
- Duración del almacenamiento: Es la cantidad de tiempo que se almacenan los tokens en caché, que se factura por hora. Los tokens almacenados en caché se borran cuando vence una caché de contexto.
- Otros factores: Se aplican otros cargos, como los de tokens de entrada y salida que no están almacenados en caché.
La cantidad de tokens en la parte almacenada en caché de tu entrada se puede encontrar en el campo de metadatos de tu respuesta, en el campo cachedContentTokenCount
.
La compatibilidad con la caché de contexto para la capacidad de procesamiento aprovisionada se encuentra en versión preliminar para la caché predeterminada. La caché de contexto con la API de Vertex AI no es compatible con el rendimiento reservado. Consulta la guía de capacidad de procesamiento aprovisionada para obtener más detalles.
Modelos compatibles
Los siguientes modelos de Gemini admiten la caché de contexto:
- Gemini 2.5 Flash
Versión preliminar - Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
Para obtener más información, consulta Versiones de modelos estables de Gemini disponibles. Ten en cuenta que la caché de contexto admite todos los tipos de MIME para los modelos compatibles.
Disponibilidad
La caché de contexto está disponible en las regiones donde está disponible la IA generativa en Vertex AI. Para obtener más información, consulta IA generativa en ubicaciones de Vertex AI.
Compatibilidad con los Controles del servicio de VPC
La caché de contexto admite los Controles del servicio de VPC, lo que significa que tu caché no se puede exfiltrar más allá de tu perímetro de servicio. Si usas Cloud Storage para compilar tu caché, incluye tu bucket en el perímetro de servicio para proteger el contenido de la caché.
Para obtener más información, consulta Controles del servicio de VPC con Vertex AI en la documentación de Vertex AI.
¿Qué sigue?
- Obtén información sobre la API de Gemini.
- Obtén más información para usar instrucciones multimodales.