跳到主要内容

产品简介

信息

Alaya NeW算力服务针对大模型基础设施实现全局加速优化:通过算法加速、编译优化、内存优化、通信加速实现训练效率提升100%、GPU利用率提升50%、推理速度提升4倍,向用户提供开箱即用的高性能模型训练服务、安全的高性能私有模型仓库、动态模型推理服务。

凭借高性能的算力服务,用户可轻松实现DeepSeek模型在云端的大规模推理部署。根据实际需求,灵活调用算力资源,畅享高效、稳定的大模型推理服务。

各模型的推荐配置

DeepSeek版本参数规模(B)模型大小(约)推荐算力配置(至少)推荐存储配置(至少)
DeepSeek-V3671FP8: 671GBH800*16800GB
DeepSeek-R1 1.58 bit量化版671FP8:131GBH800*4200GB
DeepSeek-R1671FP8:671GBH800*16800GB
DeepSeek-R1-Distill-Qwen-1.5B1.5BF16: 3.55GBH800*150GB
DeepSeek-R1-Distill-Qwen-7B7BF16: 15.23GBH800*150GB
DeepSeek-R1-Distill-Qwen-8B8BF16:16.06GBH800*150GB
DeepSeek-R1-Distill-Qwen-14B14BF16: 29.54GBH800*150GB
DeepSeek-R1-Distill-Qwen-32B32BF16: 65.53GBH800*1100GB
DeepSeek-R1-Distill-Qwen-70B70BF16: 150GBH800*2200GB
信息
  • 在弹性容器集群配置页面用户可便捷配置所需算力资源,如下图所示。

alt text

  • 在弹性容器集群配置页面用户可便捷配置所需存储资源,存储类型包括文件存储、对象存储、镜像仓库等。

模型列表

目前系统支持DeepSeek-R1满血版模型(FP8无量化版) API,用户根据不同的业务需求调用对应的模型。为确保API的顺利购买与使用,建议用户提前完成企业账户注册,如果尚未注册,可点击  进行快速注册。

提示

用户登录企业账户后,进入[产品/大模型推理服务]页面,点击立即开通API服务按钮,即可快速开启大模型推理之旅,体验高效、智能的服务能力。

DeepSeek版本参数规模(B)模型大小(约)上下文长度最大思维链长度(1)最大输出长度(2) model
DeepSeek-R1671FP8: 671GB64K32K8Kdeepseek-r1

(1) 最大思维链长度:是推理完整性与计算效率的关键参数,用户需根据具体任务和模型能力进行调整。

(2)最大输出长度:指模型生成的回复文本的最大字符数或令牌(Tokens)数量。

用户获取API Key后可直接调用相应的模型进行任务执行。例如:使用如下方式在本地调用满血版的deepseek-r1

curl --location 'https://deepseek.alayanew.com/v1/chat/completions' \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer <your_access_token>' \
--data '
{
"stream": false,
"messages": [
{
"role": "user",
"content": "Please generate an essay"
}
],
"model": "deepseek-r1"
}
'

功能使用

推理服务通过API调用大模型,基本流程如下所示。

计费说明

平台提供专属资源部署模型,详情用户可查看计费说明