u013250861-CSDN博客

原创 CosentLoss 损失函数（余弦相似度损失）【用于ReRank重排模型（CrossAttention结构）】

Cosent Loss（余弦相似度损失）是一种用于学习句子嵌入表示的目标函数，其核心思想是通过优化句子对的而非绝对相似度值，从而构建更具判别性的语义空间。

2025-06-29 22:10:20 332

原创 InfoNCE（对比学习损失函数）在蒸馏训练中的作用

蒸馏训练（Knowledge Distillation, KD）是指通过从一个复杂的模型（教师模型）中学习知识，将其“蒸馏”到一个较小的模型（学生模型）中，以提高学生模型的性能和推理效率。InfoNCE 损失函数作为一种对比损失函数，近年来在蒸馏训练中被逐步应用，尤其在自监督学习和对比学习的框架下。通过使用 InfoNCE 损失，蒸馏训练不仅可以在训练过程中强化学生模型的特征表示，还能帮助学生模型更好地理解教师模型的决策方式。蒸馏训练的主要思想是通过让学生模型模仿教师模型的输出（通常是软标签），使学

2025-06-29 21:26:42 480

原创对比学习损失函数：InfoNCE（Information Noise-Contrastive Estimation）【用于Embedding模型（BiEncoder双塔结构）】

交叉熵损失：是分类任务的标准损失函数，通过 Softmax 将 logits 转换为概率分布，并最小化预测与真实标签之间的差异。它适用于监督学习任务。InfoNCE：是一种自监督学习中的损失函数，通过区分正负样本对的相似度来学习数据表示。它避免了 Softmax 计算的昂贵成本，适用于对比学习任务。构建一个类似于多类对比任务的框架，在其中正样本是“正确类别”，负样本是“错误类别”。在优化过程中平衡正负样本的相似度，避免过拟合。确保对比学习的目标能够最大化正样本的相似度并最小化负样本的相似度。

2025-06-29 21:15:15 518

原创 Agent工作流工具：Dify（专攻文本/知识问答）、ComfyUI（追求灵活视觉生成）、n8n（需要把 AI 任务嵌入业务自动化）

下面把三个项目拆成「定位 → 关键能力 → 技术/部署 → 许可证 & 商业模式 → 适用人群/场景」五个维度，帮助你快速抓住精髓与差异点。

2025-06-26 17:49:05 24

原创 RMSNorm 数学公式详解

RMSNorm =去掉均值项的 LayerNorm；简化后的公式让它计算更快、数值表现好，且在 Transformer 等架构里常能保持（或微幅提升）精度，是近年来大模型训练中越来越流行的默认选择。

2025-06-25 23:32:36 18

原创 Transformer-Embedding层详解04：为什么Embedding层梯度无衰减而全连接层有？

在深度学习模型中，Embedding层位于网络前端（前向传播的输入层），但在反向传播中却是梯度传递的最后一站。其梯度无衰减的核心原因在于其独特的数学机制，与全连接层存在本质差异。∥∂L∂E∥⏟无衰减∥δout∥≫∥∂L∂WFC∥⏟三重衰减∥δout∥⋅∥ain∥⏟≈0.01⋅∣σ′∣⏟≤0.25。

2025-06-25 23:06:01 18

原创 Transformer-Embedding层详解03：从头训练时 “Embedding层” 的梯度幅值为何通常高于 “全连接层”【Embedding层梯度幅值较高的原因分析】

明白了。我将深入分析在NLP语言模型中，从头训练时Embedding层的梯度幅值为何通常高于全连接层。我完成后会将分析、图示和代码整理好与你分享。

2025-06-25 22:29:18 14

原创 Transformer-Embedding层详解02：Embedding层梯度幅值通常比全连接层高1-2个数量级【Embedding层仅更新当前batch出现的token对应向量（稀疏更新）】

∥∂L∂E∥⏟高幅值∥δout∥⏟无衰减≫∥∂L∂WFC∥⏟低幅值∥δout∥⋅∥ain∥⋅∣σ′∣⏟三重衰减。

2025-06-25 22:27:35 7

原创 Transformer-Embedding层详解01：各层之间的梯度传播机制

实验验证：在7B模型训练中，Embedding层梯度幅值通常比全连接层高1-2个数量级，需单独设置更严格的裁剪阈值（如全局阈值的30%）[11]。Embedding层。

2025-06-25 22:02:10 33

原创多模态旋转位置编码：M-RoPE【Qwen2-VL】【将视频的旋转位置编码按时间维度、高度维度、宽度维度区间的位置编码混合拼接】

2025-06-24 22:53:01 16

原创大型语言模型训练中的激活函数演化：ReLU、GELU、Swish/SiLU、QuickGELU、SwiGLU

在大模型时代，激活函数的设计不再仅是数学上的优雅，更关乎训练效率、梯度稳定性和最终性能。从最初的ReLU，到GELU主导NLP，再到Swish家族和门控机制的加入，我们见证了激活函数从“线性阈值”到“自适应概率控制”的进化。未来的激活函数，可能更加定制化、动态化，甚至与模型结构共同进化。对于LLM开发者而言，选择合适的激活函数依然是提升模型性能的关键步骤之一。如需对应论文、图表和实验数据源，请随时提出，我可以为你补充完整参考资料或代码实现。

2025-06-24 17:26:13 7

原创激活函数：ReLU、GELU、SiLU、Swish、SwiGLU

使用场景推荐函数理由快速训练、小模型、CNNReLU简单高效，部署友好NLP 编码器（BERT 等）GELU收敛快、平滑、泛化能力强SiLU替代 GELU，训练稳定图像模型（EfficientNet）Swishβ 可调，性能更强大语言模型（PaLM/GPT-4）SwiGLU强表达力，尤其适合大型 FFN 层生成五者的可视化曲线对比图分析它们在梯度饱和区的行为差异结合论文提供 ablation study 数据对比是否需要深入哪一部分？

2025-06-24 17:11:21 8

原创激活函数：SiLU、Swish、SwiGLU

│ Swish ││ (β=1)▼Swish 用作激活函数（非门控）▼│ SwiGLU │。

2025-06-24 16:59:50 8

原创 P-tuning v1 (Prefix Tuning v1)

一、代码解释让我详细解释这行P-tuning v1中的核心代码：1、代码组成分析1. 的作用2. 的内容从上下文代码可以看到：2、具体含义解释含义分解: 一个包含虚拟token ID的张量: 将张量包装成可训练参数: 存储为模型的可训练参数: 注释说明张量形状为数值示例3、核心作用和意义1. 创建可训练的虚拟Token2. 与传统方法的区别4、在forward过程中的使用转换为Embedding5、为什么使用浮点数存储Token ID？训练过程的考

2025-06-23 22:09:32 17

原创 P-tuning v2 (Prefix Tuning v2)

2025-06-23 21:38:45 17

原创具身智能-基准：ALFRED【评估具身智能体（Embodied AI Agent）在家庭环境中通过自然语言指令完成日常任务的能力，强调第一视角感知、长序列任务分解和复杂环境交互】

以下是关于具身智能领域基准任务 ALFRED 的详细介绍，结合多篇权威资料整理而成：全称：Action Learning From Realistic Environments and Directives核心目标：评估具身智能体（Embodied AI Agent）在家庭环境中通过自然语言指令完成日常任务的能力，强调第一视角感知、长序列任务分解和复杂环境交互 [5][1]。创建机构：由华盛顿大学、CMU、Nvidia等联合开发，已成为全球60余所高校/企业的标准测试平台 [5]。环境依赖：基于AI2-

2025-06-22 17:28:39 633

原创 VLA论文阅读指南【2025-06-21】

2025-06-21 19:30:14 266

原创 UMI——斯坦福刷盘机器人：通过手持夹爪革新数据收集方式，且使用视觉SLAM和Diffusion Policy预测动作

没想到今年年初的斯坦福mobilealoha的热度刚过，而到今年2月的下旬，斯坦福另一个团队又推出了UMI刷盘机器人，且这两个团队还互相认识、还在一块共同切磋(顺带小小感叹一下，斯坦福的氛围是真好而且真高产)斯坦福UMI刷盘机器人其与mobile aloha(以及AirExo: Low-Cost Exoskeletons for Learning Whole-Arm Manipulation in the Wild)最大的不同在于其收集数据处理的非真实的机器人，而是一个手持夹持器(从而大幅降低成本)

2025-06-21 19:08:09 817

原创基于人类视频的模仿学习与VLM推理规划：从DexMV、MimicPlay、SeeDo到人形OKAMI、Harmon(含R3M的详解)

在此文《UMI——斯坦福刷盘机器人：从手持夹持器到动作预测Diffusion Policy(含代码解读)》的1.1节开头有提到机器人收集训练数据一般有多种方式，比如来自人类视频的视觉演示有的工作致力于从视频数据——例如YouTube视频中进行策略学习。

2025-06-21 19:06:51 408

原创 VLM驱动机器狗——从UMI on Legs到Helpful DoggyBot：分别把机械臂装到机器狗背上、夹爪装到机器狗嘴里

今年十一7天假期期间，一半的时间都在改本博客内的上一篇文章《从Fast-UMI到Diff-Control：分别改进UMI的硬件及其所用的Diffusion policy(含ControlNet详解)》，改完之后，接下来计划要写的博客包括且不限于第1-2篇，大模型提炼idea、论文生成的实现关键第3篇，ALOHA 2和ALOHA Unleashed第4-5篇，OpenAI o1、llama 3.2第6篇，视频内容理解。

2025-06-21 19:03:59 662

原创 ReKep——李飞飞团队提出的让机器人具备空间智能：基于VLM模型GPT-4o和关系关键点约束(含源码解析)

由于工厂、车厂的任务需求场景非常明确，加之自今年年初以来，我司在机器人这个方向的持续大力度投入(包括南京、长沙两地机器人开发团队的先后组建)，使得近期我司七月接到了不少来自车厂/工厂的订单，比如其中的三个例子：柔性上料、物料分拣、RL仿真平台搭建也让我们越来越坚定在机器人方向发力具身智能和工业协作机器人，且细分为如下三大场景初级，面向教学场景，即高校实验室的具身「教学机器人」，及给青年少年小孩的「教育机器人」

2025-06-21 19:03:13 859

原创让VLM充当机器的指路人——VLM规划下加约束：从SayCan、VoxPoser到ViLA、CoPa、ReKep

一年多前，OpenAI重塑了聊天机器人，彻底推动大模型技术的突飞猛进一个月前，OpenAI又重塑了视频生成当sora的热度还在持续时，没想到OpenAI在机器人领域也出手了，和Figure联合打造的人形机器人，边与人类自然流畅对话、边干活(给人类苹果、整理桌面如此，现在大模型机器人的发展有三个攻克点一个是模仿学习，以斯坦福的mobile aloha、UMI为代表一个是预训练 + RL，以CMU 18万机器人为代表。

2025-06-21 18:59:25 869

原创文献精读：PI（位置插值）【Extending Context Window of Large Language Models via Positional Interpolation】

换句话说，为了容纳更多的输入标记，我们在相邻的整数位置插值位置编码，利用位置编码可以应用于非整数位置的事实，而不是在训练位置之外进行外推，这可能导致灾难性的值。我们从理论上验证了我们的方法，表明插值的注意力得分具有比外推得分小得多的上界（在 LLaMA 7B 设置中小 ∼600× ），因此更加稳定。这种数值上的稳定性（避免了极大值和不稳定波动）是该方法成功扩展上下文窗口的关键原因之一，它让模型在后续的少量微调中能够相对轻松地学会理解这些“插值”出来的位置信息，从而有效地利用更长的上下文。

2025-06-18 20:23:13 22

原创 corner case（边缘案例）、长尾问题（long-tail problem）和 bad case

以下是与的详细对比分析，结合行业实践和技术定义：💡 ：二者共同构成自动驾驶/AI系统的核心挑战：参考资料：

2025-06-18 18:07:50 308

原创 Transformer-长上下文扩展技术：YaRN（Yet another RoPE extensioN）的技术框架

频率维度分化（公式3,4）→ 保护高频局部位置信息动态长度适应（公式5）→ 支持任意长度推理注意力稳定性优化（公式7）→ 解决长程衰减问题最终在RoPE框架内（公式1,6）实现10倍以上的上下文窗口扩展效率，成为LLM长文本处理的首选方案。

2025-06-17 16:12:07 24

原创复平面、实空间、实变函数、复变函数

- 辐角：arg⁡(z)=tan⁡−1(y/x)\arg(z) = \tan^{-1}(y/x)arg(z)=tan−1(y/x)- 运算：加法/乘法满足交换律、结合律- 有序性：∀a,b∈R\forall a,b \in \mathbb{R}∀a,b∈R, a<ba < ba<b 或 a>ba > ba>b几何意义函数映射可视化为平面变形（如 eze^zez 将水平线映射为射线）函数图像为二维曲线（y=f(x)y = f(x)y=f(x)）2. 实变函数 vs 复变函数特性

2025-06-16 21:09:03 542

原创 Transformer：绝对位置编码【通过Q与K点积可获取任意两位置的相对位置信息（但有噪声项）】 v.s. RoPE【通过Q与K点积直接获取任意两位置的相对位置信息（无噪声项）】

对于维度 (d=10)，位置编码向量 (\mathbf{PE}_t) 的。

2025-06-16 20:19:40 22

原创 GraphRAG：如何将用户问题转化为KG查询，检索相关子图并转换为文本提示？

问题理解与实体识别：通过NER、关系抽取识别出问题中的实体和关系。构建查询模板：根据问题结构生成对应的图谱查询模板。查询知识图谱：执行图谱查询并获取相关子图。子图处理与文本生成：将检索到的图谱子图数据转换为自然语言提示。增强与优化：结合上下文和用户需求，优化生成的文本提示。这一流程的实现需要知识图谱、图谱查询引擎、自然语言处理技术（如NER、关系抽取）和文本生成技术的结合。

2025-06-15 17:10:34 17

原创知识图谱（KG）、LLM结合：【KG增强LLM：注入结构化知识】【LLM增强KG：自动化构建与补全】【KG与LLM协同：统一表示与联合推理】

知识图谱（KG）与大型语言模型（LLM）的结合是当前AI领域的重要研究方向。两者分别代表符号主义与连接主义的知识表示方式：KG提供，而LLM具备。二者的协同可显著提升知识的准确性、推理能力及可解释性。以下从技术路线、实现方法、应用场景及挑战四个维度展开分析。

2025-06-15 17:04:58 30

原创 Neo4j LLM知识图谱构建器使用教程

是一个开源应用程序，旨在将非结构化数据（如PDF、文档、文本、YouTube视频、网页等）转换为存储在Neo4j中的知识图谱。该项目利用大型语言模型（如OpenAI、Gemini等）从文本中提取节点、关系及其属性，并通过Langchain框架创建结构化的知识图谱。

2025-06-15 16:48:24 29

原创 SMOKE 3D目标检测

自定义算子plugin位置：https://github.com/open-mmlab/mmdeploy/tree/main/csrc/mmdeploy/backend_ops/tensorrt。参考仓库：https://github.com/open-mmlab/mmdetection3d。参考论文：https://arxiv.org/pdf/2002.10111.pdf。是3D中心点在图像平面上的投影点（区别如下图所示），红色的是2D检测框的中心，橙色的是3D检测框中心。是物体3D检测框的中心，

2025-06-14 23:21:26 31

原创 LPRnet 车牌检测、车牌识别

下载tlt（Transfer Learning Toolkit）格式预训练模型，参考网址：https://catalog.ngc.nvidia.com/orgs/nvidia/teams/tao/models/lprnet。，更多字段参考：https://docs.nvidia.com/tao/tao-toolkit/text/character_recognition/lprnet.html。发现仓库404，回到 https://github.com/NVIDIA-AI-IOT/ 去搜索。

2025-06-14 23:20:01 40

原创 Hrnet人体姿态估计

网络需要对每个关节点的每个像素位置产生一个标签，也就是说，每个关节点的heatmap对应一个标签heatmap，因此，如果一张图片中待检测的关节点有 m 个，则网络理想状态下会输出 2m 个通道， m 个通道用于定位， m 个通道用于分组。骨骼点识别（Human Pose Estimation, HPE）是计算机视觉领域中的重要任务，旨在从图像或视频中检测和定位人体关节。此时heatmapt大致长这样，同一张图上是不同人的同一类型关键点，如第一幅图，是两个人的鼻子的位置。的关键点检测算法，并使用。

2025-06-14 23:17:23 23

英文单词拼写混淆集：spell-errors.txt

《Approaching (Almost) Any Machine Learning Problem》

中文小说短句序列文本复述数据集

时间序列预测-第六届全国工业互联网数据创新应用大赛：工业生产反应装置的建模预测

stop-words.txt

clustering-test-data

strawberry-perl-5.10.1.0.msi

strawberry-perl-5.10.1.0.msi

带有词频的词典库：vocab.txt

空空如也