本页介绍了使用生成式 AI 服务的两种方式,提供了按地区和模型划分的配额列表,并介绍了如何在 Google Cloud 控制台中查看和修改配额。
概览
您可以通过以下两种方式使用生成式 AI 服务。您可以选择随用随付 (PayGo),也可以使用预配的吞吐量提前付费。
如果您使用的是按需付费方案,则在使用生成式 AI 功能时,您需要遵守以下任一配额系统,具体取决于您使用的模型:
- 早于 Gemini 2.0 的模型针对每个生成式 AI 模型使用标准配额系统,以帮助确保公平性并减少资源使用和可用性的激增。配额适用于给定 Google Cloud 项目和受支持区域的 Vertex AI 上的生成式 AI 请求。
- 较新的模型使用动态共享配额 (DSQ),该功能会针对特定模型和地区,在所有客户之间动态分配可用的按需付费容量,从而无需设置配额和提交配额增加请求。DSQ 没有配额。
如需确保应用具有高可用性并为生产工作负载提供可预测的服务等级,请参阅预配吞吐量。
按模型的配额系统
以下模型支持动态共享配额 (DSQ):
以下旧版 Gemini 模型支持 DSQ:
- Gemini 1.5 Pro
- Gemini 1.5 Flash
非 Gemini 模型和早期 Gemini 模型使用标准配额系统。如需了解详情,请参阅 Vertex AI 配额和限制。
已调参模型配额
以下配额适用于给定项目和区域的 Vertex AI 上的生成式 AI 调优模型
配额 | 值 |
---|---|
每个区域的受限图片训练 TPU V3 pod 核心数 *受支持的区域 - europe-west4 |
64 |
每个区域的受限图片训练 Nvidia A100 80GB GPU * 支持的区域 - us-central1 * 支持的区域 - us-east4 |
8 2 |
文本嵌入限制
每个文本嵌入模型请求最多可以包含 250 个输入文本(每个输入文本生成 1 个嵌入),每个请求最多可以包含 2 万个令牌。
系统仅使用每个输入文本中的前 8,192 个词元来计算嵌入。每个请求可能只包含一条输入文本。
Vertex AI Agent Engine 限制
以下限制适用于每个区域中给定项目的 Vertex AI Agent Engine。
说明 | 限制 |
---|---|
每分钟创建/删除/更新的 Vertex AI Agent Engine 数量 | 10 |
每分钟创建/删除/更新的 Vertex AI Agent Engine 会话数量 | 100 |
每分钟的 Query/StreamQuery Vertex AI Agent Engine 数量 | 60 |
每分钟向 Vertex AI Agent Engine 会话附加事件 | 100 |
Vertex AI Agent Engine 资源数量上限 | 100 |
批量预测
批量预测请求的配额和限制在所有区域中都是相同的。并发批量预测请求数限制
下表列出了并发批量预测请求数量的限制:限额 | 值 |
---|---|
Gemini 模型 | 8 |
并发批量预测请求配额
下表列出了并发批量预测请求数量的配额,这些配额不适用于 Gemini 模型:配额 | 值 |
---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
在 Google Cloud 控制台中查看和修改配额
如需在 Google Cloud 控制台中查看和修改配额,请执行以下操作:- 前往配额和系统限制页面。
- 如需调整配额,请复制并粘贴属性
aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
到过滤条件中。按 Enter 键。 - 点击行末的三点状图标,然后选择修改配额。
- 在该窗格中输入新的配额值,然后点击提交请求。
Vertex AI RAG 引擎
对于使用 RAG 引擎执行检索增强生成 (RAG) 的每项服务,都适用以下配额,配额以每分钟请求数 (RPM) 为单位。服务 | 配额 | 指标 |
---|---|---|
RAG 引擎数据管理 API | 60 RPM | VertexRagDataService requests per minute per region |
RetrievalContexts API |
1,500 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1,500 RPM | Online prediction requests per base model per minute per region per base_model 您可以指定的其他过滤条件是 base_model: textembedding-gecko |
服务 | 限制 | 指标 |
---|---|---|
并发 ImportRagFiles 请求 |
3 RPM | VertexRagService concurrent import requests per region |
每个 ImportRagFiles 请求的文件数量上限 |
10000 | VertexRagService import rag files requests per region |
如需了解更多速率限制和配额,请参阅 Vertex AI 上的生成式 AI 速率限制。
Gen AI Evaluation Service
Gen AI Evaluation Service 使用gemini-2.0-flash
作为基于模型的指标的默认评判模型。
对基于模型的指标的单个评估请求可能会导致对 Gen AI Evaluation Service 发出多个底层请求。每个模型的配额按项目计算,这意味着定向到 gemini-2.0-flash
进行模型推理和基于模型的评估的任何请求都会计入配额。
Gen AI Evaluation Service 和底层评判模型的配额如下表所示:
请求配额 | 默认配额 |
---|---|
每分钟的 Gen AI Evaluation Service 请求数 | 每个区域中每个项目 1,000 个请求 |
base_model: gemini-2.0-flash 的每分钟在线预测请求数量 |
请参阅按区域和模型的配额。 |
如果您在使用 Gen AI Evaluation Service 时收到与配额相关的错误,则可能需要提交配额增加请求。如需了解详情,请参阅查看和管理配额。
限额 | 值 |
---|---|
Gen AI Evaluation Service 请求超时 | 60 秒 |
在新项目中首次使用 Gen AI 评估服务时,您可能会遇到初始设置延迟,最长可达两分钟。如果第一个请求失败,请等待几分钟,然后重试。后续评估请求通常会在 60 秒内完成。
基于模型的指标的输入和输出令牌数上限取决于用作评判模型的模型。如需查看模型列表,请参阅 Google 模型。
Vertex AI Pipelines 配额
每个调优作业都使用 Vertex AI Pipelines。如需了解详情,请参阅 Vertex AI Pipelines 配额和限制。
后续步骤
- 如需详细了解动态共享配额,请参阅动态共享配额。
- 如需了解 Vertex AI 的配额和限制,请参阅 Vertex AI 配额和限制。
- 如需详细了解 Google Cloud 配额和限制,请参阅了解配额值和系统限制。