错误代码 429

如果您的请求数量超出分配用于处理请求的容量,则系统会返回错误代码 429。下表显示了每种配额框架生成的错误消息:

配额框架 消息
随用随付 Resource exhausted, please try again later.
预配的吞吐量 Too many requests. Exceeded the Provisioned Throughput.

使用预配的吞吐量订阅时,您可以为特定的生成式 AI 模型预留该吞吐量。如果您没有预配的吞吐量订阅,并且应用没有可用的资源,则系统会返回错误代码 429。虽然您没有预留容量,但可以再次尝试提交请求。不过,该请求不会计入错误率,如服务等级协议 (SLA) 中所述。

对于已购买预配的吞吐量的项目,Vertex AI 会衡量项目的吞吐量,并为项目的实际使用情况预留所购买的吞吐量。如果您使用的吞吐量少于购买的吞吐量,则本可能以 429 返回的错误会以 5XX 返回,并计入 SLA 中所述的错误率。如果您的使用量超出所购买的吞吐量,系统会按随用随付方式处理额外的请求。

随用随付

在随用随付配额框架中,您可以通过以下方式来解决 429 错误:

  • 请尽可能使用全球端点,而不是区域端点。
  • 使用截断指数退避算法实现重试策略。
  • 如果您的模型使用配额,您可以提交配额增加申请 (QIR)。如果您的模型使用动态共享配额,平滑流量并减少大规模流量激增有助于解决此问题。如需了解详情,请参阅动态共享配额 (DSQ)
  • 订阅预配的吞吐量,以实现更一致的服务等级。如需了解详情,请参阅预配吞吐量

预配的吞吐量

如需更正预配的吞吐量产生的 429 错误,请执行以下操作:

  • 使用默认行为示例,该示例不会在预测请求中设置标头。任何超额费用按需处理,并且随用随付。
  • 增加预配的吞吐量订阅中的 GSU 数量。

后续步骤