Vertex AI 上的生成式 AI 的配额和系统限制

本页介绍了使用生成式 AI 服务的两种方式,提供了按地区和模型划分的配额列表,并介绍了如何在 Google Cloud 控制台中查看和修改配额。

概览

您可以通过以下两种方式使用生成式 AI 服务。您可以选择随用随付 (PayGo),也可以使用预配的吞吐量提前付费。

如果您使用的是按需付费方案,则在使用生成式 AI 功能时,您需要遵守以下任一配额系统,具体取决于您使用的模型:

  • 早于 Gemini 2.0 的模型针对每个生成式 AI 模型使用标准配额系统,以帮助确保公平性并减少资源使用和可用性的激增。配额适用于给定 Google Cloud 项目和受支持区域的 Vertex AI 上的生成式 AI 请求。
  • 较新的模型使用动态共享配额 (DSQ),该功能会针对特定模型和地区,在所有客户之间动态分配可用的按需付费容量,从而无需设置配额和提交配额增加请求。DSQ 没有配额

如需确保应用具有高可用性并为生产工作负载提供可预测的服务等级,请参阅预配吞吐量

按模型的配额系统

以下模型支持动态共享配额 (DSQ)

以下旧版 Gemini 模型支持 DSQ:

  • Gemini 1.5 Pro
  • Gemini 1.5 Flash

非 Gemini 模型和早期 Gemini 模型使用标准配额系统。如需了解详情,请参阅 Vertex AI 配额和限制

已调参模型配额

以下配额适用于给定项目和区域的 Vertex AI 上的生成式 AI 调优模型

配额
每个区域的受限图片训练 TPU V3 pod 核心数
*受支持的区域 - europe-west4
64
每个区域的受限图片训练 Nvidia A100 80GB GPU
* 支持的区域 - us-central1
* 支持的区域 - us-east4

8
2
* 在特定区域中,调优场景具有加速器预留。支持调优配额,并且必须在特定区域中申请。

文本嵌入限制

每个文本嵌入模型请求最多可以包含 250 个输入文本(每个输入文本生成 1 个嵌入),每个请求最多可以包含 2 万个令牌。

系统仅使用每个输入文本中的前 8,192 个词元来计算嵌入。每个请求可能只包含一条输入文本。

Vertex AI Agent Engine 限制

以下限制适用于每个区域中给定项目的 Vertex AI Agent Engine

说明 限制
每分钟创建/删除/更新的 Vertex AI Agent Engine 数量 10
每分钟创建/删除/更新的 Vertex AI Agent Engine 会话数量 100
每分钟的 Query/StreamQuery Vertex AI Agent Engine 数量 60
每分钟向 Vertex AI Agent Engine 会话附加事件 100
Vertex AI Agent Engine 资源数量上限 100

批量预测

批量预测请求的配额和限制在所有区域中都是相同的。

并发批量预测请求数限制

下表列出了并发批量预测请求数量的限制:
限额
Gemini 模型 8
如果提交的任务数量超过分配的上限,则会将任务放入队列中,并在上限容量可用时进行处理。

并发批量预测请求配额

下表列出了并发批量预测请求数量的配额,这些配额不适用于 Gemini 模型:
配额
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
如果提交的任务数量超过分配的配额,则会将任务放入队列中,并在配额容量可用时进行处理。

在 Google Cloud 控制台中查看和修改配额

如需在 Google Cloud 控制台中查看和修改配额,请执行以下操作:
  1. 前往配额和系统限制页面。
  2. 前往“配额和系统限制”页面

  3. 如需调整配额,请复制并粘贴属性 aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model过滤条件中。按 Enter 键。
  4. 点击行末的三点状图标,然后选择修改配额
  5. 在该窗格中输入新的配额值,然后点击提交请求

Vertex AI RAG 引擎

对于使用 RAG 引擎执行检索增强生成 (RAG) 的每项服务,都适用以下配额,配额以每分钟请求数 (RPM) 为单位。
服务 配额 指标
RAG 引擎数据管理 API 60 RPM VertexRagDataService requests per minute per region
RetrievalContexts API 1,500 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1,500 RPM Online prediction requests per base model per minute per region per base_model

您可以指定的其他过滤条件是 base_model: textembedding-gecko
存在以下限制:
服务 限制 指标
并发 ImportRagFiles 请求 3 RPM VertexRagService concurrent import requests per region
每个 ImportRagFiles 请求的文件数量上限 10000 VertexRagService import rag files requests per region

如需了解更多速率限制和配额,请参阅 Vertex AI 上的生成式 AI 速率限制

Gen AI Evaluation Service

Gen AI Evaluation Service 使用 gemini-2.0-flash 作为基于模型的指标的默认评判模型。 对基于模型的指标的单个评估请求可能会导致对 Gen AI Evaluation Service 发出多个底层请求。每个模型的配额按项目计算,这意味着定向到 gemini-2.0-flash 进行模型推理和基于模型的评估的任何请求都会计入配额。 Gen AI Evaluation Service 和底层评判模型的配额如下表所示:
请求配额 默认配额
每分钟的 Gen AI Evaluation Service 请求数 每个区域中每个项目 1,000 个请求

base_model: gemini-2.0-flash 的每分钟在线预测请求数量
请参阅按区域和模型的配额

如果您在使用 Gen AI Evaluation Service 时收到与配额相关的错误,则可能需要提交配额增加请求。如需了解详情,请参阅查看和管理配额

限额
Gen AI Evaluation Service 请求超时 60 秒

在新项目中首次使用 Gen AI 评估服务时,您可能会遇到初始设置延迟,最长可达两分钟。如果第一个请求失败,请等待几分钟,然后重试。后续评估请求通常会在 60 秒内完成。

基于模型的指标的输入和输出令牌数上限取决于用作评判模型的模型。如需查看模型列表,请参阅 Google 模型

Vertex AI Pipelines 配额

每个调优作业都使用 Vertex AI Pipelines。如需了解详情,请参阅 Vertex AI Pipelines 配额和限制

后续步骤