如果您的请求数量超出分配用于处理请求的容量,则系统会返回错误代码 429
。下表显示了每种配额框架生成的错误消息:
配额框架 | 消息 |
---|---|
随用随付 | Resource exhausted, please try again later. |
预配的吞吐量 | Too many requests. Exceeded the Provisioned Throughput. |
使用预配的吞吐量订阅时,您可以为特定的生成式 AI 模型预留该吞吐量。如果您没有预配的吞吐量订阅,并且应用没有可用的资源,则系统会返回错误代码 429
。虽然您没有预留容量,但可以再次尝试提交请求。不过,该请求不会计入错误率,如服务等级协议 (SLA) 中所述。
对于已购买预配的吞吐量的项目,Vertex AI 会衡量项目的吞吐量,并为项目的实际使用情况预留所购买的吞吐量。如果您使用的吞吐量少于购买的吞吐量,则本可能以 429
返回的错误会以 5XX
返回,并计入 SLA 中所述的错误率。如果您的使用量超出所购买的吞吐量,系统会按随用随付方式处理额外的请求。
随用随付
在随用随付配额框架中,您可以通过以下方式来解决 429
错误:
- 请尽可能使用全球端点,而不是区域端点。
- 使用截断指数退避算法实现重试策略。
- 如果您的模型使用配额,您可以提交配额增加申请 (QIR)。如果您的模型使用动态共享配额,平滑流量并减少大规模流量激增有助于解决此问题。如需了解详情,请参阅动态共享配额 (DSQ)。
- 订阅预配的吞吐量,以实现更一致的服务等级。如需了解详情,请参阅预配吞吐量。
预配的吞吐量
如需更正预配的吞吐量产生的 429 错误,请执行以下操作:
- 使用默认行为示例,该示例不会在预测请求中设置标头。任何超额费用按需处理,并且随用随付。
- 增加预配的吞吐量订阅中的 GSU 数量。
后续步骤
- 如需详细了解动态共享配额,请参阅动态共享配额。
- 如需详细了解预配吞吐量,请参阅预配吞吐量。
- 如需了解 Vertex AI 的配额和限制,请参阅 Vertex AI 配额和限制。
- 如需详细了解 Google Cloud 配额和限制,请参阅了解配额值和系统限制。
- 如需详细了解 API 错误,请参阅 API 错误。