
学习
文章平均质量分 68
学习
星光银河
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Github的README.md怎么插入图片
如果要插入gif动态图,用法和静态图一样,只是把图片文件改为.gif文件即可。首先在代码仓创建一个专门存放图片的文件夹,比如。原创 2025-07-30 10:47:54 · 204 阅读 · 0 评论 -
从0开始,手搓一个ViT
(Attention):核心的 Transformer 机制,用于建模全局依赖。:LayerNorm + Attention + MLP 的残差结构。中进行简单的测试,8 张 32×32 彩色图像经过模型输出形状为。:每个 Transformer block 中的前馈网络。:将最终的 class token 投射到类别空间。:用于分类任务的特殊 token 和位置嵌入。:将图像切分为固定大小的小块并线性映射。原创 2025-06-23 21:30:29 · 261 阅读 · 0 评论 -
linux中 zip 的用法(踩坑贴)
目录本身和它下面所有文件,用。:要压缩的相对路径。原创 2025-06-22 20:45:17 · 104 阅读 · 0 评论 -
手搓一个完整的RAG+Langchain(爬虫版)
它能自动请求网页并提取正文文本(去掉 HTML 标签),返回一个或多个。会把每个 URL 当作一个 Document,自动下载并提取正文。LangChain(>=0.0.x)中提供了一个。原创 2025-06-05 15:39:02 · 120 阅读 · 0 评论 -
手搓一个完整的RAG+Langchain(本地文档版)
下面是Langchain ,并调用Openai编码器与大模型接口实现一个检索增强生成功能的示例。原创 2025-05-30 16:11:30 · 249 阅读 · 0 评论 -
如果test.py和myclip.py不在同一个文件夹下面,该怎么在test.py中导入myclip.py
如果test.py和myclip.py。原创 2025-06-16 19:06:35 · 101 阅读 · 0 评论 -
Stable Diffusion全景透视:打开AI视觉创作的潘多拉魔盒
Stable Diffusion是一种文本到图像的生成模型,它能根据简单的文字描述创造出高保真的视觉内容。想象一下:告诉AI"夕阳下的赛博朋克城市,霓虹闪烁,雨中的全息广告",几秒钟后你就能得到专业级的概念艺术图。这种技术的革命性在于它首次在质量、速度和可访问性三者间实现了完美平衡。Stable Diffusion不仅是一项技术创新,更是视觉内容创作民主化的革命性突破。创作门槛解构:从专业艺术家扩展到普通用户生产效率革新:将概念到成品的周期从天级压缩到分钟级。原创 2025-06-14 17:22:53 · 1074 阅读 · 0 评论 -
accelerate + deepspeed的使用
需要确保两台机器能互通(网络无阻断),且时间同步。,你需要根据机器环境分别放到两台机器上并修改。两台机器配置分别保存,各自执行训练命令。必须指向主节点IP,且端口号一致。两边的代码版本和依赖要保持一致。我帮你整理一个完整的。文件内容不完全相同,特别是。原创 2025-06-16 14:56:21 · 270 阅读 · 0 评论 -
DDP(不使用accelerate)实现示例
下面是不依赖accelerate,在上使用 PyTorch DDP 的完整示例。原创 2025-06-16 14:26:31 · 379 阅读 · 0 评论 -
DP(Data Parallel)使用
下面给出一个完整的示例,假设你有,使用一个简单的两层 MLP 在合成数据上做训练。原创 2025-06-16 14:06:30 · 219 阅读 · 0 评论 -
Pytorch的accelerate(基于torch的DDP)的使用
以下示例演示如何使用 Accelerate 在两台机器上、共 6 张 GPU(机器1:2卡;机器2:4卡)上并行训练一个极简的两层 MLP。原创 2025-06-16 13:35:31 · 358 阅读 · 0 评论 -
InfoNCE 损失(少见却非常重要的一个损失函数,CLIP等多模态模型经常使用)
下面从背景动机、数学形式、直观理解、优化目标、典型应用和实现要点等方面,详细介绍 InfoNCE 损失,实际上 InfoNCE 就是一次特殊的交叉熵分类任务。原创 2025-06-13 16:29:18 · 1235 阅读 · 0 评论 -
数据并行(DP)、分布式数据并行(DDP)、DeepSpeed-ZeRO1, 2, 3介绍
在大规模深度学习训练中,随着模型参数规模和硬件集群规模不断增长,单卡训练已难以满足内存与吞吐需求。以下从,以及微软 DeepSpeed 针对极大模型提出的1/2/3 三个阶段,逐一介绍它们的原理、优势与适用场景。原创 2025-06-13 15:37:31 · 1023 阅读 · 0 评论 -
ollama模型的基本使用
模型,涵盖安装、模型拉取、调用(HF & GGUF)、LoRA 微调、服务部署及 Python 集成,助你快速上手 Ollama。脚本中以编程方式调用 Ollama 的方法,既可以直接调用本地命令,也可以通过 HTTP 接口。启动了一个本地 REST 服务,就可以直接用。最通用的方式,直接在 Python 中用。,可即时集成到任何 Python 脚本。模型文件放在当前目录,命名为。假设在 HF Hub 上也有。,并解析其 JSON 输出。后,通过 HTTP 接口()在服务端与客户端解耦。原创 2025-06-13 12:50:17 · 493 阅读 · 0 评论 -
DeepSeek中的四大技术解析(MOE,MLA,GQA,MTP)
DeepSeek 的 MOE、MLA、GQA、MTP技术共同促使了DeepSeek的高性能与准确率,下面将对这四项技术进行详细解析。原创 2025-06-13 12:34:26 · 1241 阅读 · 0 评论 -
RMSNorm是什么 ?
RMSNorm(Root Mean Square Layer Normalization)是一种轻量级的归一化方法,由 Shen 等人在 2019 年提出,用于替代经典的 LayerNorm。它的核心思想是不再对输入做去均值(centering),而只根据 Root Mean Square(均方根)对特征进行缩放,使得计算更简单、参数更少,同时数值稳定性和性能不降。原创 2025-06-12 20:57:31 · 785 阅读 · 0 评论 -
区分LayerNorm 与 BatchNorm
BatchNorm:擅长大规模卷积网络,通过跨样本统计降低内部协变量偏移,但依赖 batch、跨位置聚合,不利于序列场景。LayerNorm:在「每个时间步/每个样本」内部对所有特征统一归一化,不依赖其他样本,无需区分训练与推理,天然契合序列模型对「时间步无缝、样本独立」的需求。因此,对于 RNN、Transformer 以及其他需要逐步处理、批大小波动或在线推理的序列模型,LayerNorm 往往是更稳健、更高效的选择。原创 2025-06-12 17:32:17 · 1023 阅读 · 0 评论 -
快速搞懂GRPO(基于与PPO的对比)
在策略梯度方法里,我们希望告诉模型:“在状态 s 下,动作 a 得到的回报,相比平均水平好/差多少?状态 s,选了 a 得到 r=5,下一个状态估计 V(s′)=20,当前状态估计 V(s)=22。你先行动得到即时回报 5 分,然后根据经验网络估计“接下来还能拿 20 分”,合计 25 分,都来自同一个价值网络,只不过一个是“当前时刻的预测”,一个是“下一时刻的预测”。直观地说,就是“实际下一步回报 + 估计的后续回报” 减去 “原本估计的回报”。,把“同一个状态”当成一个“奖励组”来标准化。原创 2025-06-12 15:34:41 · 1114 阅读 · 0 评论 -
快速搞懂DPO
DPO(Direct Preference Optimization)本质上是把「人类偏好」当作一个来做,而不是像 PPO 那样去「采样——估计价值——自举——策略梯度更新」。原创 2025-06-12 15:18:45 · 620 阅读 · 0 评论 -
YOLO进化史:从实时检测雏形到通用视觉基座(一文总结,简单易懂)
——从边缘部署到多模态融合的范式革命。原创 2025-06-11 12:03:48 · 929 阅读 · 0 评论 -
RLHF(Reinforcement Learning from Human Feedback)全过程的详细梳理(PPO近端策略优化)
9. 这一步是怎么做的”把 ℎ 𝑡 (或者对所有位置的 ℎ 𝑖 再做一次处理)用来估计当前生成序列的总体价值 𝑉 ( 𝑠 𝑡 )。原创 2025-06-09 16:35:24 · 897 阅读 · 0 评论 -
什么是RoPE 与 RoPE插值?
在 RoPE 中,假设你的隐藏维度是 d,你可以把这个向量分成 d/2 对共轭的维度对。因为 RoPE 是通过二维旋转(类似复数旋转)来对向量进行位置编码的,而二维旋转必须用**一对维度(两个数)**来一起完成。原创 2025-06-09 16:16:16 · 1162 阅读 · 0 评论 -
算法题记忆引子(面试经典150+Hot热题100里面难理解的题)
给你一个按照非递减顺序排列的整数数组nums,和一个目标值target。请你找出给定目标值在数组中的开始位置和结束位置。如果数组中不存在目标值target,返回[-1, -1]。你必须设计并实现时间复杂度为O(log n)的算法解决此问题。示例 1:nums = [[3,4]示例 2:nums = [[-1,-1]示例 3:[-1,-1]nums是一个非递减数组res = mid;}else{原创 2025-05-22 11:52:12 · 1065 阅读 · 0 评论