DeepSeek-R1环境搭建&推理测试

引子

这两天国货之光DeepSeek-R1火爆出圈,凑个热闹。过来看看 aha moment(顿悟时刻)的神奇,OK,我们开始吧。

一、模型介绍

1月20日,中国AI公司深度求索(DeepSeek)发布的DeepSeek-R1模型,凭借其独特的强化学习(RL)训练方法,首次让AI展现出类人的“顿悟时刻”——在解决复杂问题时,模型会突然停下思考,自主修正推理路径,甚至用自然语言标注“等等,这一步可能有误”。(AI在思考的过程中突然停下:“等等,等等。这是一个顿悟时刻。让我们一步一步地重新评估一下,以确定正确的总和...”)知名AI评测员Matthew Berman表示,R1拥有他所见过的最像人类的内心独白。

DeepSeek-R1的这种特点,和它独特的训练方式有关。传统的AI训练有三个阶段:预训练、SFT(监督微调)、RL(强化学习)。打个比方,传统AI需经历三阶段学习:先在预训练阶段里“背书自学”基础知识,再在SFT阶段里“抄写教案”模仿人类示范,最后在RL阶段里“模拟考试”优化表现。而R1 Zero跳过了SFT阶段,直接进入了RL阶段。也就是说,DeepSeek-R1直接砍掉用人工标准数据训练的“模仿”环节,而是仅凭基础语言能力和数学规则,在持续解题试错中自悟知识体系。

SFT的使用是当年ChatGPT成功的关键,而R1 Zero完全用强化学习替代了SFT。DeepSeek-R1成功的秘诀在于构建了一个智能训练场,这一系统由三个技术组件构成:动态题目生成系统、过程验证体系和协同工作机制。用一个比喻来说,每解完一题,系统自动生成更难的变体题,并实时验证解题过程逻辑是否自洽。它迫使AI像数学家般提炼方法论,甚至能将几何证明中的反证法迁移到代码检测中。这个训练过程展示了强化学习的潜力。未来的AI发展,依然充满无限可能。

强大,便宜,还开源。据介绍,DeepSeek-R1的功能比肩OpenAI o1。根据DeepSeek官方公布的数据,DeepSeek-R1在AIME2024上获得了79.8%的成绩,略高于OpenAI-o1-1217的79.2%。在MATH-500上,它获得了97.3%的惊人成绩,表现略高于OpenAI-o1-1217的96.4%,并明显优于其他模型。在编码相关的任务中,DeepSeek-R1在Codeforces上获得了2029 Elo评级,在竞赛中表现优于96.3%的人类参与者。对于工程相关的任务,DeepSeek-R1的表现略优于OpenAI-o1-1217。

二、环境搭建

模型下载,硬件受限,

1.5B模型

https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B/tree/main

7B模型

https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B/tree/main

docker run -it -v /datas/work/zzq/:/workspace --gpus=all --net=host deepseek_r1:v1.0 bash

pip install vllm==v0.6.2 -i Simple Index

三、测试推理

1.5B模型

vllm serve DeepSeek-R1-Distill-Qwen-1.5B --tensor-parallel-size 1 --max-model-len 32768 --enforce-eager --dtype=half

7B模型

vllm serve DeepSeek-R1-Distill-Qwen-7B --tensor-parallel-size 1 --max-model-len 16384 --enforce-eager --dtype=half --gpu_memory_utilization 0.95        

       仔细阅读DeepSeek-R1的思考过程,就能发现它思考时的语言风格十分自然,还会随口蹦出一些“让我仔细想一想”这样的活泼表述。

### DeepSeek-R1-70B 模型介绍 DeepSeek-R1-70B 是一款参数量达到70亿的大规模预训练语言模型[^3]。该模型旨在提供强大的自然语言处理能力,支持多种高级功能如对话生成、文本摘要、问答系统等。 ### 使用指南 #### 环境准备 为了顺利部署并使用 DeepSeek-R1-70B 模型,需先安装 Ollama 平台作为运行环境: 对于 **Windows** 用户而言,在命令行工具中执行如下指令完成安装操作: ```powershell winget install ollama ``` 针对 **Linux** 发行版,则可通过包管理器 apt-get 或 yum 进行快速配置: ```bash sudo apt-get update && sudo apt-get install -y ollama ``` 至于 **macOS** 设备上的使用者来说,Homebrew 提供了一种便捷的方式来进行软件安装工作: ```bash brew install ollama ``` #### 获取模型文件 在成功搭建好上述平台之后,即可着手获取目标模型实例。具体做法是在终端窗口输入以下命令来加载所需版本的 DeepSeek-R1-70B: ```bash ollama pull deepseek-r1-70b ``` 这一步骤会自动从官方仓库拉取最新发布的 DeepSeek-R1-70B 权重数据至本地机器上存储起来以便后续调用。 #### 启动服务端口 当一切就绪后,只需简单地启动对应的服务进程就能让应用程序正常运作起来了。这里给出一段简单的 Python 脚本用于测试目的: ```python import requests response = requests.post( "http://localhost:8000/v1/completions", json={"prompt": "你好", "model": "deepseek-r1-70b"} ) print(response.json()) ``` 这段代码向 localhost 的 HTTP API 接口发送 POST 请求以触发一次推理过程,并打印返回的结果信息。 ### 性能特点 - 支持多轮对话理解和上下文记忆机制; - 开放源码许可协议(MIT License),鼓励社区贡献和技术交流活动开展; - 内置思维链路输出特性,有助于提升复杂场景下的表现力和准确性; - 可通过 RESTful API 方式轻松集成到第三方应用当中去实现智能化升级转型的目标;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

要养家的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值