自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

阿正的梦工坊

时间的朋友

  • 博客(2204)
  • 收藏
  • 关注

原创 Muon 优化器深度剖析(二):数学公式与 MuonClip 变体

Muon 的几何视角(正交化 + 范数约束)重塑优化,公式简洁却强大;MuonClip 的 clip 机制则解决实际痛点,让大规模训练可行。

2025-08-14 07:08:48 960

原创 深入剖析 Muon 优化器(一):从基础原理到 Kimi K2 大模型的应用

Muon优化器通俗解释

2025-08-14 06:51:54 563

原创 TypeScript与JavaScript深度解析:从基础到进阶

本文将从基础到进阶,详细对比JS和TS,重点剖析TS的核心特性、优势与适用场景,帮助有JS或其他面向对象语言(如Python、C++)基础的开发者快速上手TS,同时为深入理解TS的设计哲学提供启发。

2025-08-13 20:51:41 669

原创 深入浅出:GPU并行计算中的Grid、Block与线程分配——向上取整,blocksPerGrid = (N + B - 1) /B

任务分配的计算原理(技术细节)

2025-08-13 03:29:51 612

原创 深入浅出:GPU架构中SM、Core、Grid、Block与Warp的关系——以NVIDIA H100为例

关于GPU架构的好文。

2025-08-13 03:17:41 829

原创 GPU相关术语介绍: 流多处理器(SM),核心(Core),线程束(Warp), PTX等

通俗解释

2025-08-13 02:47:36 1009

原创 解决 Ollama 服务启动失败的权限问题:自定义存储路径

踩坑

2025-07-29 00:29:02 1352

原创 通俗讲解 FlashAttention v1 的分块策略与 Online Softmax 应用

原理

2025-07-28 00:48:04 905

原创 通俗易懂讲解 Online Softmax 算法与 Flash Attention简介

原理和代码实现

2025-07-27 23:36:40 1004 1

原创 Adam优化器:从直觉到深刻理解

Adam 为什么如此强大?它的一阶矩和二阶矩到底在做什么?为什么需要两者?它又是如何“自适应”地调节学习率的?本文将以通俗的语言,结合直观的比喻,带你深入理解 Adam 优化器的原理和设计初衷。

2025-07-25 23:44:17 858

原创 单例模式(Singleton Pattern)解析与在Python中的应用

查看void源代码中发现(cursor的开源平替)

2025-07-24 21:59:44 839

原创 如何使用 Git Submodule 管理 GitHub 项目:Github带箭头的文件夹是什么?

Git Submodule 是 Git 提供的一种功能,允许你在一个 Git 仓库中嵌入另一个 Git 仓库。子模块在你的项目中表现为一个带有“箭头”标志的文件夹(在 Git 客户端或 GitHub 界面中可见),它指向外部仓库的特定提交。

2025-07-24 01:20:37 974

原创 htop 使用详解:排查高 CPU 占用、分析内存使用

无论是排查高 CPU 占用、分析内存使用,还是终止进程,htop都能提供高效的支持。

2025-07-23 16:55:36 1168

原创 解决 Flash-Attention 安装问题:基于 PyTorch 2.7.0 的环境配置

flash-attn==2.7.4.post1适配torch 2.7.0

2025-07-22 23:14:28 1075

原创 解决TRL与vLLM集成的Pydantic验证错误

Bug解决

2025-07-20 19:06:57 1083

原创 在Ray框架中查找和同步Wandb离线日志

在Ray框架中使用Wandb离线模式时,日志文件存储在Ray的临时目录结构中,而不是工作目录下的wandb文件夹中。通过本文介绍的方法,可以有效地找到并同步这些离线日志,确保训练过程的可视化和分析不会因为网络问题而中断。

2025-07-19 18:04:18 694

原创 SWP(交换空间)84.8%占用解析:原理、用途与高占用场景分析

交换空间(Swap Space)是操作系统中用于扩展内存的一种机制。它通常是硬盘或固态硬盘(SSD)上的一块预留区域,用作虚拟内存的补充。当系统的物理内存(RAM)不足以容纳所有运行中的进程和数据时,操作系统会将部分暂时不活跃的数据从RAM移动到交换空间,从而释放RAM以供其他进程使用。

2025-07-11 23:17:38 646

原创 利用T检验挖掘文化差异特征:从统计方法到实际应用

独立样本T检验是一种用于比较两个独立群体均值是否存在显著差异的统计方法。

2025-06-15 18:21:37 1221

原创 Conda 与 Python venv 虚拟环境的区别与使用方法

Conda 适合复杂项目、数据科学和多语言环境,提供强大的依赖管理和 Python 版本控制。Python venv 适合轻量级项目,简单易用,内置于 Python,无需额外安装。

2025-06-12 15:46:56 1357

原创 深入解析 SAE 训练输出文件:结构与意义

在利用SAELens框架进行稀疏自编码器(Sparse Autoencoder, SAE)训练时,训练完成后会生成一组关键文件,这些文件记录了模型的权重、状态以及相关信息。

2025-06-11 16:14:26 793

原创 多语言电车难题中的大语言模型道德对齐研究

2025年于ICLR会议发表的论文《Language Model Alignment in Multilingual Trolley Problems》(多语言电车难题中的语言模型对齐)深入探讨了19种不同大语言模型在跨语言、跨文化的道德决策场景中的表现。

2025-06-08 13:49:19 1228

原创 wandb offline 模式下训练日志在哪?如何上传到网页端?

训练指标都在 run-*.wandb 这个二进制文件里。

2025-06-06 18:30:19 1431

原创 基于稀疏自编码器研究语言模型中的知识感知与幻觉-解读ICLR 2025论文《Do I Know This Entity?》

ICLR 2025发表的一篇论文《Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models》由Javier Ferrando等人撰写,深入探讨了语言模型中幻觉的机制,揭示了模型如何通过内部表示判断自身是否“认识”某个实体,并展示了如何通过干预这些表示来控制模型的行为。

2025-06-06 15:52:55 924

原创 Qwen3 Embedding 系列:基于大型语言模型的文本嵌入与重排序技术突破

阿里云通义实验室(Tongyi Lab, Alibaba Group)发布了《Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models》技术报告,详细介绍了基于 Qwen3 大型语言模型(LLM)的 Qwen3 Embedding 系列模型。

2025-06-06 14:39:07 2264

原创 大规模多语言文本嵌入基准MMTEB: Massive Multilingual Text Embedding Benchmark

大规模多语言文本嵌入基准(MMTEB),涵盖了超过500个高质量控制的评估任务,涉及250多种语言,旨在为嵌入模型提供迄今为止最全面的多语言评估框架。

2025-06-06 13:45:30 1124

原创 使用稀疏自编码器缓解大型视觉-语言模型幻觉

《Steering LVLMs via Sparse Autoencoder for Hallucination Mitigation》

2025-06-05 15:38:35 1030

原创 PrivacyScalpel:利用稀疏自编码器提升大语言模型隐私保护

《PrivacyScalpel: Enhancing LLM Privacy via Interpretable Feature Intervention with Sparse Autoencoders》

2025-06-05 13:00:25 773

原创 关于大型语言模型在无共识任务中的挑战:LLMs in No-Consensus Tasks

《Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks》

2025-06-04 20:42:12 1069

原创 使用稀疏自编码器理解语言模型的拒绝行为

Understanding Refusal in Language Models with Sparse Autoencoders

2025-06-04 16:41:22 980

原创 解读语言模型中的拒绝行为:Refusal in Language Models Is Mediated by a Single Direction

论文的主要贡献在于揭示了语言模型的拒绝行为由激活空间中的一个一维子空间(即“拒绝方向”)所介导。

2025-06-04 14:14:35 920

原创 语言特定知识:Language Specific Knowledge: Do Models Know Better in X than in English?

LSKEXTRACTOR 是一个两阶段的框架,旨在通过识别语言模型在不同语言中的“专家语言”(expert language)来提升推理性能。所谓专家语言,是指在特定知识领域或主题上,模型在该语言中表现最佳,能够提供更准确、更符合文化背景的回答。

2025-06-04 12:39:47 758

原创 大型语言模型如何在多种语言中共享语法概念表示

《Large Language Models Share Representations of Latent Grammatical Concepts Across Typologically Diverse Languages》

2025-06-02 16:40:25 1003

原创 通过激活引导(Activation Steering)提升语言模型的指令遵循能力:一篇 ICLR 2025 论文解读

《Improving Instruction-Following in Language Models through Activation Steering》

2025-05-28 16:39:16 1088

原创 解读Sparse Autoencoder-Denoised Concept Vector

论文《Denoising Concept Vectors with Sparse Autoencoders for Improved Language Model Steering》提出了一种新颖的方法——稀疏自编码器去噪概念向量(Sparse Autoencoder-Denoised Concept Vector, SDCV),通过稀疏自编码器(SAE)从语言模型的隐藏表示中滤除噪声,增强概念向量的转向性能。

2025-05-27 19:49:49 942

原创 JumpReLU稀疏自编码器

这篇由Google DeepMind团队于2024年8月2日发表的论文《Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders》提出了一种新颖的SAE变体——JumpReLU SAE,它在保持稀疏性的同时显著提升了重构保真度。

2025-05-27 19:07:07 930

原创 《Scaling and evaluating sparse autoencoders》论文解读

OpenAI 的《Scaling and evaluating sparse autoencoders》通过引入 TopK 激活函数、优化死特征预防策略、系统研究缩放定律以及提出新的评估指标,为 SAE 的训练和评估提供了全新的视角。

2025-05-27 18:40:10 906

原创 对比激活添加(Contrastive Activation Addition, CAA):Steering Llama 2 via Contrastive Activation Addition

《通过对比激活添加引导Llama 2》提出了一种创新的激活工程方法——对比激活添加(CAA),通过生成和应用引导向量,实现对大型语言模型行为的精确控制。

2025-05-25 19:52:56 1003

原创 揭示大型语言模型中的潜在思维链向量:Latent Chain of Thought Vectors

《Uncovering Latent Chain of Thought Vectors in Large Language Models》提出了一种创新的方法,通过操作语言模型的激活空间诱导CoT推理,展示了激活空间干预的强大潜力。

2025-05-25 19:12:10 898

原创 情境向量(In-context Vectors,ICV)如何提升大型语言模型的上下文学习能力

《In-context Vectors: Making In Context Learning More Effective and Controllable Through Latent Space Steering》

2025-05-25 17:58:23 1166

原创 从预训练语言模型中提取潜在引导向量(steering vectors):可控文本生成方法

《Extracting Latent Steering Vectors from Pretrained Language Models》

2025-05-25 15:10:48 881

李永乐线代强化笔记2020年.rar

李老师对出题形式、考试重点了如指掌,解题思路极其灵活,辅导针对性极强,效果优良,成绩显著,受到广大学员的交口称赞!这是笔者自己的笔记,整理成pdf版,方便大家复习使用。

2020-10-27

李永乐线代基础班笔记.zip

李永乐线性代数基础班笔记2020年。用过了都说好!好在思路与题型的延伸方面。举一反三(举一反N也不夸张)

2020-09-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除