基于ModelArts Studio开通和使用DeepSeek-V3/R1商用服务教程
一、华为云ModelArts Studio平台介绍
1.1 ModelArts Studio介绍
对于普通企业来说,大模型开发
不仅需要强大的算力
,还需要学习训练、部署的相关参数配置和规格选择
等专业知识。ModelArts Studio大模型即服务平台(MaaS) 作为一个面向客户的大模型服务化平台,提供简单易用的模型开发工具链,支持大模型定制开发,让模型应用与业务系统无缝衔接,显著降低了企业AI落地的成本与难度。
AI开发的基本流程通常可以归纳为几个步骤:确定目的、准备数据、训练模型、评估模型、部署模型。这个过程比较专业而且比较耗时时间和算力,尤其是训练模型的过程。
在模型部署后,可以在其他业务环境中调用该模型服务进行预测,一般情况下作为模型的使用者,我们都是直接使用的调用模型的API即可。MaaS预置服务
的商用服务为企业用户提供高性能、高可用的推理API服务
,支持按Token用量计费的模式。该服务适用于需要商用级稳定性、更高调用频次和专业支持的场景。
1.2 ModelArts Studio优势
👉 模型全、免配置、免调优、性能优
业界SOTA大模型覆盖度99%,预置最优超参配置,基于昇腾算子、显存优化,大模型训练与推理性能大幅提升;并围绕大模型性能与精度评价体系构建标准化自动流水线。
👉 开箱即用,一站式模型开发服务
提供模型调优、压缩、部署、评测等全栈工具,功能覆盖大模型全生命周期,支持用户即开即用,低门槛使用各类大模型
。
👉 资源一站式按需开通,建设周期短
资源可分钟级获得,按需收费,按需扩缩容
,并支持故障快恢与断点续训。
👉 多服务组合竞争力,一站式应用能力集成
即插即用MCP Server,LangChain、九问、RAG、Agent、Guard等组件化集成,快速构建一站式应用
。
1.3 模型推理服务
模型需要通过在线推理提供服务,用于模型体验和调用,可通过监控面板查看运行状况。本次测评也就是开通和使用推理服务:DeepSeek-V3/R1
模型。
推理服务
按Tokens使用量(后付费):在调用模型推理服务的过程中,输入内容首先会被分词
(tokenize),转换为模型可识别的Token。在调用MaaS预置服务时,将根据实际使用的Tokens数量进行计费。
模型名称 | 计费子项 | 单价 |
---|---|---|
DeepSeek R1 | 输入 | 0.004元/千Tokens |
输出 | 0.016元/千Tokens | |
DeepSeek V3 | 输入 | 0.002元/千Tokens |
输出 | 0.008元/千Tokens |
计费公式:费用 = 输入Token使用数量 * 输入Token单价 + 输出Token使用数量 * 输出Token单价
支持Tokens消耗量、输入Tokens、输出Tokens监控与统计。
现在单个模型还提供 200万Tokens免费体验额度
,可以用于临时的调试项目功能或熟悉MaaS的流程。
二、开通DeepSeek-V3/R1模型推理服务
商用服务:将为您提供商用级别的推理API服务
,开放后您可以获取付费API服务。
免费服务:仅适合用于体验模型
,且受严格的速率限制。平台可能会不定时调整其适用模型、免费额度、有效期等内容。
2.1 开通商用服务
-
登录ModelArts Studio控制台,在顶部导航栏选择目标区域。
-
在左侧导航栏,选择“在线推理”。
- 在“预置服务”页签的“商用服务”页签,选择服务为
DeepSeek-R1-32K
和DeepSeek-V3-32K
,在目标服务右侧的“操作”列,单击“开通服务”。在 “开通付费服务” 页面,勾选目标服务,仔细阅读并勾选 “开通须知” 区域下的内容,然后单击 “立即开通” 。
注意:暂不支持关闭付费服务,未使用服务时不会产生费用。
这样就完成了DeepSeek-R1-32K
和DeepSeek-V3-32K
商用服务的开通了
在“商用服务”页签,单击“调用统计”列的图标,可以查看目标服务的调用次数、Tokens数、首Token时延等指标信息。
若在后续使用中出现调用失败的问题,可能是因为欠费导致的,所以可以先在 费用中心 - 可用额度中充值10元
2.2 领取免费服务额度
在ModelArts Studio控制台左侧导航栏,选择“在线推理”,在“预置服务”页签的“免费服务”页签,在目标服务右侧的“操作”列,单击“领取额度”。
出现提示即表示领取成功:DeepSeek-V3-32K(NEW),2,000,000token免费体验额度 领取成功,配额将会在几分钟内到账,到账后您可进行体验或调用。
三、使用DeepSeek-V3/R1模型推理服务
对比维度 | DeepSeek-V3 | DeepSeek-R1 |
---|---|---|
核心定位 | 通用型多模态模型,覆盖文本/图像/音频,适合企业级应用 | 专精复杂逻辑推理(数学/代码/金融分析),面向科研和高阶技术场景 |
架构设计 | MoE稀疏架构,多令牌预测加速推理 | 动态门控MoE架构,强化学习优化 |
典型应用 | 智能客服/多语言翻译/电商文案生成(成本降低92%) | 金融量化交易/蛋白质折叠预测(精度比AlphaFold2高9%) |
👉 优先选V3:需要低成本、高并发的通用任务(如长文本生成、实时翻译)
👉 优先选R1:处理数学证明、算法设计等需透明思维链输出的深度推理任务
3.1 在线体验
在ModelArts Studio控制台
中选择在线推理 - 商用服务 - DeepSeek-R1-32K - 在线体验
点击即可进入文本对话界面
,此时就和我们使用各个平台的大模型Chat对话网页一样了
可以输出你的任何问题,等待输出结果即可
在经过35秒的深度思考
后,输出了我这个问题的答案,相应的速度很快,最后的结果中还包含了输入和输出所消耗的Tokens:输入tokens:15 | 输出tokens:1888
然后我又测试了一个问题,目前是无法主动联网搜索或获取实时信息的,知识库数据截止到2023年10月,所以对于时效性较强的问题(如新闻、技术进展、学术论文更新等)可能回答不准确或胡说八道的情况。
在文本对话页面的右上角有个参数设置
,我们可以根据需要重新设置来获取更好的回答效果,当然可以一键恢复默认
参数的
关于这三个参数的含义及其功能参考下面的说明吧
参数 | 说明 |
---|---|
温度/Temperature | 设置推理温度。数值较高,输出结果更加随机。数值较低,输出结果更加集中和确定。取值范围:0~2默认值:不同模型的默认值不同,请以实际环境为准。 |
核采样/top_p | 设置推理核采样。调整输出文本的多样性,数值越大,生成文本的多样性就越高。取值范围:0.1~1默认值:不同模型的默认值不同,请以实际环境为准。 |
top_k | 选择在模型的输出结果中选择概率最高的前K个结果。取值范围:1~1000默认值:20 |
3.2 三方客户端
如果你不想每次使用都要登录到ModelArts Studio控制台中去使用DeepSeek-V3/R1,就可以借助一些第三方支持多服务商集成的AI对话客户端,例如Cherry Studio、Chatbox,只要完成模型服务配置
即可直接调用DeepSeek-V3/R1商业推理服务了。这里我们使用Cherry Studio为例介绍,单纯喜欢Cherry Studio的UI设计吧,基本操作都是一样的。
- 下载并安装Cherry Studio
- 创建API Key
在ModelArts Studio控制台左侧导航栏,单击“API Key管理”
单击“创建API Key”,填写标签和描述信息后,单击“确定”,复制并保存好API Key
API Key仅会在
新建后显示一次
,请及时复制并妥善保存,若API Key丢失,请新建API Key。
- 查看接口信息
在“调用说明”页面,可以查看调用该服务需要的基础API地址
和模型名称
信息,在后续Cherry Studio配置中使用。基础API地址的免费服务和商业服务是不一样的,但是API Key是通用的
。
API地址:https://api.modelarts-maas.com/v1/chat/completions
模型名称:DeepSeek-R1
- 配置 Cherry-Studio 模型服务
在Cherry Studio客户端左下角,单击设置图标,在“模型服务”中单击“添加”,输入提供商名称,选择提供商类型
为 OpenAI
,点击确定
CherryStudio目前支持市面上绝大多数服务商的集成,并且支持多服务商的模型统一调度,但是暂不支持 ModelArts Studio,所以需要自定义服务商
配置API密钥和API地址,输入前面创建的API Key,API地址需要将基础API地址
,需要去掉地址尾部的/v1/chat/completions
后填入,再添加模型,输出模型ID
为模型名称
即可,最后还可以点击检测按钮查看是否联通,若出现连接成功
的提示就完成配置了。
- 在Cherry Studio中使用MaaS API
在Cherry Studio左侧导航栏,单击对话图标,选择已配置好的模型
在文本框中输入文字,开始对话
3.3 开发者SDK集成
官方文档:调用ModelArts Studio(MaaS)部署的模型服务
参数 | 是否必选 | 默认值 | 参数类型 | 描述 |
---|---|---|---|---|
url | 是 | 无 | Str | 调用时的API地址。假设URL为https://example.com/v1/infers/937cabe5-d673-47f1-9e7c-2b4de06*****/{endpoint} , 其中{endpoint}仅支持如下接口:/v1/chat/completions 、/v1/models 、/v1/completions |
model | 是 | 无 | Str | 调用时的模型名称。在ModelArts Studio大模型即服务平台的“在线推理”页面,选择调用的模型服务,在调用页面可以获取模型名称 |
messages | 是 | - | Array | 请求输入的问题 |
👉 Python示例代码
import requests
import json
if __name__ == '__main__':
url = "https://api.modelarts-maas.com/v1/chat/completions"
api_key = "<your_apiKey>" # 把<your_apiKey>替换成已获取的API Key。
# Send request.
headers = {
'Content-Type': 'application/json',
'Authorization': f'Bearer {api_key}'
}
data = {
"model": "DeepSeek-R1", # 调用时的模型名称。
"max_tokens": 1024, # 最大输出token数。
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "hello"}
],
# 是否开启流式推理,默认为False,表示不开启流式推理。
"stream": False,
# 在流式输出时是否展示使用的token数目。只有当stream为True时该参数才会生效。
# "stream_options": {"include_usage": True},
# 控制采样随机性的浮点数,值较低时模型更具确定性,值较高时模型更具创造性。"0"表示贪婪取样。默认为0.6。
"temperature": 0.6
}
response = requests.post(url, headers=headers, data=json.dumps(data), verify=False)
# Print result.
print(response.status_code)
print(response.text)
输出结果:
200
{"id":"chat-adea7578ba8343fe9dd51cff33e47f54","object":"chat.completion","created":1749387190,"model":"DeepSeek-R1","choices":[{"index":0,"message":{"role":"assistant","content":"\n\nHello! 😊 How can I assist you today?","reasoning_content":"Okay, the user just said \"hello\". I need to respond in a friendly and welcoming manner. Let me think of a natural reply. Maybe \"Hello! How can I assist you today?\" That's straightforward and opens the conversation for them to ask for help. Alternatively, I could add a smiley emoji to make it feel more warm. Yeah, let's go with that.\n\nWait, but sometimes using emojis might not be suitable depending on the context. However, since the user started with a simple greeting, adding a 😊 could help set a positive tone. Alright, I'll include it.\n","tool_calls":[]},"logprobs":null,"finish_reason":"stop","stop_reason":null}],"usage":{"prompt_tokens":12,"total_tokens":152,"completion_tokens":140},"prompt_logprobs":null}
👉 curl命令示例
curl -X POST "https://api.modelarts-maas.com/v1/chat/completions"
-H "Content-Type: application/json"
-H "Authorization: Bearer yourApiKey"
-d '{
"model": "DeepSeek-R1",
"max_tokens": 1024,
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "hello"
}],
"stream": false,
"temperature": 0.6
}'
--insecure
查看返回结果:
四、总结
ModelArts Studio
为 DeepSeek-V3/R1 的商用部署
提供了开箱即用的企业级支持:通过极简的三步开通流程(模型选择→服务配置→API调用
),平台以清晰指引和实时反馈显著降低操作门槛;其灵活的资源调度与透明的计费监控机制,在保障高并发稳定性的同时,精准控制大模型调用成本;尤其在实际业务验证中,V3的高效通用性与R1的深度推理能力均得到充分释放。此次实践印证了 ModelArts Studio 作为华为云AI工程化落地的核心底座,正以安全可控、持续进化的技术生态,加速企业智能化转型的规模化进程。对大模型感兴趣的小伙伴,可以去体验一下 ModelArts Studio大模型即服务平台吧!