- 博客(5018)
- 资源 (1)
- 收藏
- 关注

原创 我叫曾小健,开发第一线:新Windows与开发环境:大模型LLM/量化 Win-Mac统一快捷键体验 win强制关机:shutdown /s /f /t 0
对于开发者用Windows来说,最大的建议就是不要用Windows,既然必须要用,那就来吧!!!
2023-07-24 10:45:24
435
1

原创 Ubuntu Linux AI大模型开发常用命令 - 更新中 包括NVIDIA状态,和安装相关常用软件包,没事就背背 - 背诵创造美好生活
Ubuntu AI大模型开发常用命令 - 更新中 包括NVIDIA状态,NVIDIA状态,实时更新:和安装相关常用软件包没事就背背,增加开发效率。
2023-06-21 11:28:05
652
1
原创 告别巨型Transformer,谷歌DeepMind全新架构横空出世!
像“and”这样的简单功能词,路由器说:“你只跑一遍,完事,出去吧。模型处理简单词汇如“the”,“and”,“is”的计算深度和处理“认识论”(epistemology)或者“超导”(superconductivity)这种复杂词汇是一模一样的,浪费了大量能量。更疯狂的是,在大模型上,它不仅追上 Transformer,有时甚至超越,尤其是在算力受限时。此外,论文暗示了潜在推理的概念:递归循环就像模型内部的“思考链”,让它能对复杂 token 多步“深思”,朝着不仅预测,而是推理的模型迈进了一步。
2025-08-12 11:15:09
391
原创 反超OpenAI,百川开源大模型医疗能力登顶世界第一
针对医疗领域用户隐私考虑下的模型私有化部署需求,我们对Baichuan-M2进行了极致轻量化,量化后的模型精度接近无损,可以在RTX4090上单卡部署,相比DeepSeek-R1 H20双节点部署的方式,成本降低了57倍。在大语言模型的发展中,“知识”与“能力”是两条相辅相成但又相对独立的主线,模型在医学考试(如 USMLE)上的表现被视为衡量医疗水平的重要指标,但随着题库饱和,这类选择题或短回复的评测难以反映模型的临床实用性,医疗 AI 并不等于“刷题机器”,分数再高也不意味着在真实医疗场景中好用。
2025-08-11 14:22:13
630
原创 动作控制中回归点估计为什么造成 模态塌缩(平均动作)? VLA中的模态探索和图文模型的模态探索有什么区别?详述模态坍缩的概念
L1 范数L2 范数在回归里我们用“残差”ei=yi−y^ie_i=y_i-\hat y_iei=yi−y^i 来做损失L1 损失(绝对误差和)平均化后就是L2 损失(平方误差和)平均化后就是结论:在作为误差度量的语境里,“L1”≈“MAE”“L2”≈“MSE”,只差一个是否取平均(常数因子,不影响 argmin\arg\minargmin 的解)。但“L1 / L2”也可能指正则化(见 §4),要看上下文。已思考 18s简要说结论:用L2/MSE。
2025-08-11 11:17:53
537
原创 一文了解:英伟达 H200从单卡到整机的全流程组装【注意事项】
H200 GPU作为当前旗舰级AI加速卡,其从单卡组装到整机部署的全流程涉及多个关键步骤和技术要点。从单卡模组组装开始,到最终整合为完整服务器系统的全流程,包括硬件安装、散热系统配置、系统初始化以及大规模集群部署的注意事项。1. 防静电准备:将装有GPU模组的防静电保护袋与服务器未上漆金属表面接触放电,然后取出模组放置在防静电表面上。4. 保护盖安装:最后将塑胶盖安装在GPU和散热槽模组上,确保固定到位。抓住GPU和散热槽模组,对齐GPU基板上的两个导孔。2025年08月09日 18:53。
2025-08-11 10:52:16
188
原创 万字长文:揭秘GPT-5背后的“超级大脑”——混合专家模型(MoE)全解析
根据Token的ID或其他固定属性进行哈希,将其分配给固定的专家。这种方法计算简单且负载均衡,但由于缺乏动态性,性能通常较差,常作为基线对比。将路由决策视为一个序列决策问题,使用强化学习(如REINFORCE算法)来训练路由器。理论上这是“正确”的解决方案,因为它能直接优化最终目标(如模型性能),但由于梯度方差高、训练复杂,实践中很少使用。将路由视为一个线性分配问题(Linear Assignment Problem),目标是在满足专家容量限制的前提下,最大化Token到专家的总亲和力。
2025-08-11 10:46:54
238
原创 详细说明基于Diffusion Policy的控制原理,具体怎么进行Vision Language Action控制
详细说明基于Diffusion Policy的控制原理,具体怎么进行Vision Language Action控制。
2025-08-11 10:01:04
628
原创 为什么Qwen采用QK-Norm?这是在什么基础上改进的,目的是什么
在注意力里,先做线性映射q=WQxk=W_K xQK-Norm就是对每个头的 q,kq,kq,k 在最后一维做RMS 归一化(或与之等价的 L2/RMS 归一),再进入 RoPE/打分:(gq,gkg_q,g_kgq,gk 为可学习的逐维/逐头缩放,⊙\odot⊙ 是逐元素乘。随后用 q~,k~\tilde q,\tilde kq~,k~走RoPE(位置旋转)并做打分:直观上,它把注意力改成“近似余弦相似度+ 可学温度”的形态,控制logits 的量级和分布。
2025-08-08 17:01:43
806
原创 RMSnorm和其他Norm有什么区别?为什么Qwen3用RMSNorm
对每个 token 的特征维度做均方根归一化,不做均值去中心化、通常也没有偏置项\odot\;gx∈Rd:某个位置的隐藏向量ddd:特征维度:可学习的缩放(每维一个 scale;很多实现没有 bias)不减均值只按能量(L2)把向量“缩到合适长度”。先做去均值,再按标准差归一:ScaleNorm(顺带一提)本质上与 RMSNorm 的分母相同(都是 1d∑xk2\sqrt{\tfrac{1}{d}\sum x_k^2}d1∑xk2),但ScaleNorm 的 gg。
2025-08-08 16:49:40
703
原创 ALiBi 的单头打分公式
下面这条就是的单头打分公式(省略了常见的 1/dk1/\sqrt{d_k}1/dk 缩放):+\;逐项解释——:当前要生成/对齐的(第 iii 个 token)。:允许被关注的(第 jjj 个 token)。在注意力里只看过去,通常 j≤ij\le ij≤i。:第 hhh 个注意力头在位置 i/ji/ji/j 处的(维度 dkd_kdk)。:标准(内容相似度)。。对过去的 token,(j−i)≤0(j-i)\le 0(j−i)≤0,距离越远数值越小(更负)。(常为,各头不同)。
2025-08-08 16:32:47
834
原创 1.1 VLA:一场机器人学的范式革命
机器人的正运动学可以表示为一系列指数映射的乘积:\\\\n \\\\[ T(q) = e^{\\\\hat{\\\\xi}_1 q_1} e^{\\\\hat{\\\\xi}_2 q_2} \\\\cdots e^{\\\\hat{\\\\xi}_n q_n} T(0) \\\\]\\\\n 其中 \\\\(\\\\xi_i\\\\) 是第 \\\\(i\\\\) 个关节的旋量坐标,\\\\(T(0)\\\\) 是零位形下的末端位姿。这是一个非常实践性的问题。理论上,这个方程是精确的,但现实是复杂的。
2025-08-06 17:17:10
881
原创 一手实测OpenAI新开源的GPT OSS,o1和GPT-4o都要过气了。
我们等这一天都等太久了,蹲草莓、蹲Orin、蹲发布会OpenAI终于当了一回字面意义上的OpenAI了。这周大概率还会有GPT5,这款从24年期待到25年,一度被称为AGI起点的模型真的,我现在已经睡不着了,也顾不上时差不时差的了,我要一口气测24小时!别鸽我了,我不差Token,真的。@ 作者 / 卡尔。
2025-08-06 17:15:50
904
原创 说一说语言模型的分类,并举例,比方说decoder only、encoder-only、encoder-decoder,分别列举哪些典型的语言模型
语言模型按照Transformer结构的不同,常见有三类:Encoder-Only、Decoder-Only、Encoder-Decoder。下面详细介绍三种结构和代表性模型:结构特点:只包含编码器部分,能够对整段输入进行双向(上下文)建模,非常适合语义理解类任务,如分类、检索、情感分析等。典型模型:BERT(Bidirectional Encoder Representations from Transformers):最经典的encoder-only模型,预训练目标是Masked Language Mo
2025-08-06 11:16:48
448
原创 先说一说BERT的原理,并说明Robert在BERT之上改进了什么
RoBERTa(Pretraining Approach)是BERT的优化版本,其核心算法依然是掩码语言模型(MLM,Masked Language Modeling),即通过随机掩码(mask)输入文本里一部分词汇,让模型预测这些被掩码的词,从而让模型学习词之间以及上下文之间的关系。RoBERTa采用的依然是多层Transformer编码器结构,自注意力机制让模型更好地捕捉长距离依赖关系,提升对上下文的理解能力。在预训练阶段,RoBERTa输入被分词后的文本序列,将。
2025-08-06 11:06:26
910
原创 【机器人头条】松延动力完成数亿元融资;智元机器人再获新融资;零次方机器人完成亿元级融资;RoboScience完成近2亿融资
松延动力交付战报月度交付首破百台2025年7月1日~31日松延动力累计交付人形机器人105台。2025年7月松延动力量产交付105台人形机器人。N2人形机器人交付量为92台,E1人形机器人交付量为13台,环比增长176%,创下公司成立以来最高量产及交付纪录。启动量产2个月即实现交付量破百,松延动力将持续领跑行业。值得注意的是,松延动力启动量产不足2个月,即实现了单月破百台交付规模的成绩,单月交付量已跻身人形机器人赛道头部。
2025-08-06 09:47:04
863
原创 请说明LLama为什么要用SwiGLU激活函数?请说明SwiGlu的原理。该激活函数和其他激活函数的异同和优劣是什么
LLaMA选用SwiGLU激活函数主要因为:它的门控机制提高了模型对信息的动态选择能力,有助于捕获复杂语义和长距离依赖。Swish激活带来了更平滑的梯度流,缓解了ReLU的“死神经元”问题,使训练更稳定。在多个预训练和下游任务上,SwiGLU表现优于传统激活函数,如ReLU和GELU。其计算效率相对较高,适合大规模模型训练和推理,是大语言模型中越来越受欢迎的激活选择。因此,SwiGLU激活函数成为LLaMA等先进大型语言模型的重要技术创新之一。项目GLUSwiGLU激活函数。
2025-08-05 18:35:49
982
原创 Open Computer Use DeepWiki
然后,代理循环运行,捕获屏幕截图,使用视觉模型进行分析,使用动作模型规划动作,并在沙盒中执行这些动作。有关 LLM 集成的详细信息,请参阅。开放计算机使用 (Open Computer Use) 允许 LLM 通过标准人机界面与完整的 Linux 环境进行交互,在自然语言指令和计算机操作之间架起了一座桥梁。该系统是一个开源项目,旨在实现由大型语言模型 (LLM) 控制的安全云 Linux 计算机。该系统建立在 E2B 桌面沙箱上以确保安全执行,并集成了多个 LLM 提供商来处理计算机操作的不同方面。
2025-08-05 15:32:28
30
原创 概述 deepwiki Coze
开发平台,支持开发者通过可视化设计工具创建、部署和管理 AI 代理。作为字节跳动 Coze 平台的开源版本,它提供了全面的功能,能够以极低的编码要求构建 AI 应用程序。本文档介绍了开源 AI 代理开发平台 Coze Studio,涵盖了该系统的总体架构、核心功能和技术栈。有关全面的设置说明、部署要求和配置详细信息,请参阅。有关 CI/CD 流水线的信息,请参阅。Coze Studio 是一个一体化的。(了解 Go 服务和 API)。有关详细的开发环境设置,请参阅。Volcengine 在内。
2025-08-05 14:50:48
915
原创 为什么llama使用RMSNorm,RMSNorm是在哪个阶段用的,相对于其他normalization方法有什么优势和劣势
Llama模型选用RMSNorm,是为了以更低的计算成本和更佳的训练稳定性满足深层、大规模Transformers的需求,特别适合需要高效推理和并发部署的场景。虽然在某些人工智能任务(如处理高度异常分布的数据)上RMSNorm略有不足,但对于大多数NLP应用和超大参数模型,它能在性能和效率间取得更优平衡。
2025-08-05 14:49:46
438
原创 腾讯王炸!混元小模型开源:手机也能跑AI,256K长文本无压力!
据 NotebookCheck(2025年8月4日)及 GitHub 页面(https://github.com/Tencent-Hunyuan),这些模型在单块消费级 GPU 上即可运行推理,支持移动端部署,显著降低 AI 使用门槛。根据 NotebookCheck 和 Hugging Face(https://huggingface.co/Tencent-Hunyuan),腾讯混元四款小模型以轻量化和高效推理为核心,专为资源受限设备优化。,降低 KV 缓存内存占用,支持 256K token 处理。
2025-08-05 10:53:54
1129
原创 用作科技公司估值一般用什么财务模型? 判断科技人员的价值呢? 什么叫市梦率?为什么meta屡次开出1亿美元年薪
科技公司估值常用折现现金流、收益倍数、收入倍数、公允市场比较等方法,同时考虑快速技术迭代、无形资产和成长潜力。对于早期公司,市场供需与团队潜力往往比财务指标更重要。员工尤其是核心技术人员构成企业知识资本的重要组成。无形资产和知识资本约占上市公司价值的 80%;评估人才价值应关注关键岗位贡献、创新成果和长期潜力。“市梦率”是对互联网泡沫时期估值畸高的戏谑,强调投资者以未来梦想而非盈利支撑的估值。
2025-08-05 03:58:44
901
原创 扩散模型中的scheduler具体作用和原理
在Diffusion Policy机器人控制中,scheduler是驱动模型从高噪动作到精准动作转换的关键机制。它掌控扩散模型采样的时间步和去噪策略,确保生成的动作序列既符合视觉和状态条件,又具备连续性和平滑性,是高效实现机器人多步滚动控制的重要组成部分。扩散模型(Diffusion Model)中的scheduler(调度器)在“图片生成”和“Diffusion Policy中的机器人控制”两个应用场景下,作用和原理基本一致,但关注点和参数设计略有不同。原理几乎一致:都在多步反向采样。
2025-08-05 03:53:13
624
原创 Diffusion Policy具体怎么用于机器人控制,原理和过程是怎样? 和其他控制方法有什么区别
Diffusion Policy实现机器人控制的关键优势在于:通过逐步去噪的方式,从随机动作中逐步凝练出符合当前环境/语境的“最优操作轨迹”,极大提升了控制多样性、连续性和泛化能力。与行为克隆等传统方法相比,它不仅更能刻画实际操作中的复杂多模态特征,还显著提高了任务迁移与零样本学习能力,正成为现代机器人智能体领域的热门技术路径。基于Diffusion Policy训练机器人控制主要是通过模仿学习和扩散模型生成的动作序列,训练一个条件去噪扩散生成器,从输入的视觉及状态信息。
2025-08-05 03:47:07
732
原创 祝贺 Figma 成功上市,首日收盘价115.5美元,涨幅250%
从红杉资本(Sequoia Capital)领投的A轮,到A16z加持的C轮,再到2021年使其估值达到100亿美元的D轮融资,Figma的每一步扩张,都伴随着顶级投资机构的信任投票。我们相信,Figma的故事远未结束,它奠定了一个时代的基石,其真正价值在于它改变了我们创造与协作的方式。,2023年成立至今,服务超过100多家全球AI企业,从阿里巴巴Qwen、Hubsport、Monday 到 Figma、11Labs、Genspark,我们见证了AI全球化影响力的跃迁。我们荣幸地宣布,合作伙伴。
2025-08-05 01:23:56
428
原创 Claude“断供”OpenAI,GPT-5“吓到”CEO,AI内战打响了吗?
Claude断供GPT,是一次高调的“分手声明”。GPT-5即将登场,却连CEO都说它“令人害怕”。这些都预示着一个事实:我们正步入AI代理人时代的“混沌初期”。模型的能力飞涨,但监管尚未到位;任务执行更复杂,但行为可解释性更差;竞争越来越激烈,合作则日渐稀薄。AI不再是单纯的技术产品,而是潜在的“权力代理人”。谁拥有更强模型,谁就掌握了更多认知入口和社会影响力。未来,AI不仅是你的工具,更可能是你的代表、你的同事,甚至是你的“数字影子”。在这样的世界里,我们不光要问:“GPT-5有多强?
2025-08-05 01:21:19
1048
原创 AI+中医|问止中医再闯港交所,这次能否对症上市?
在问止之前,AI赋能影像、AI辅助问诊、AI远程医疗……这些“AI+医疗”的尝试,大多止步于试验阶段,或者被资本冷遇。但AI+中医,正好处在“传统未被科技触碰,需求又真实存在”的那片洼地。问止的价值在于,它在尝试一条从未有企业真正走通的路径:让人工智能成为中医诊疗的“助理”,用算法梳理经方逻辑,把经验医学变成数据模型,再通过线上线下闭环进行规模化复制。这条路能不能走通?问止做了一次勇敢的尝试,也遭遇了所有创业者都会遇到的“成长期烦恼”:盈利压力、合规挑战、用户认知、品牌信任。
2025-08-05 01:15:17
671
原创 QtScrcpy github
可以根据需要,自己编写脚本将键盘按键映射为手机的触摸点击,编写规则在这里。默认自带了针对和平精英手游和抖音进行键鼠映射的映射脚本,开启平精英手游后可以用键鼠像玩端游一样玩和平精英手游,开启抖音映射以后可以使用上下左右方向键模拟上下左右滑动,你也可以按照编写规则编写其他游戏的映射文件,默认按键映射如下:编写自定义脚本放入 keymap 目录点击刷新脚本,确保脚本可以被检测到选择需要的脚本连接手机并启动服务之后,点击应用脚本按(即脚本中定义的SwitchKey)键切换为自定义映射模式。
2025-08-04 17:51:46
735
原创 [AI代聊]俄罗斯小哥ChatGPT找女友:聊了5239个女生,现在订婚了
当 Aleksandr 在 Tinder 上找女孩时,他使用网略爬虫获取图像,最开始 Aleksandr 倾向于那些在 Tinder 上的照片超过两张的女孩。Aleksandr 表示一开始 GPT-3 表现非常糟糕,经常忘记对话,并且由于机器人无法访问 Telegram,因此他失去了一半的潜在约会机会。,他可以获得 18 次配对。面对这一结果,Aleksandr 并没有灰心,和朋友继续升级这个机器人,因此第二代机器人(Datebot V2)出现了,这次,Aleksandr 他们采用:。
2025-08-04 17:40:49
886
原创 pre norm和post norm的区别是? 为什么大模型都用pre norm? 什么情况下用post norm
架构类型公式简写措辞说明Post-Norm在子层 (Self‑Attn 或 FFN)输出加入残差后再归一化,是所采用的结构Towards AI+15维基百科+15NeurIPS Proceedings+15。Pre-Norm在进入子层之前先归一化,是 Xiong et al. 2020 等后来主流模型使用的方案维基百科。模型层数不多 (<6–8 层),且有足够资源调试 learning‑rate warm‑up:Post‑Norm 可能带来更好的泛化或最终性能。
2025-08-04 16:37:54
965
原创 ICLR25|打开RL黑盒,首次证明强化学习存在内在维度瓶颈
对于没有微分几何背景的读者来说,“流形”本身就是一个抽象且难以捉摸的概念。论文中涉及的“微分同胚”、“坐标图卡”、“切空间”等术语会进一步增加理解难度。
2025-08-04 16:09:58
569
原创 人形机器人为何突然“跑”进现实?五大动力揭秘产业加速密码
在汽车整装车间,优必选 Walker S1 承担 80% 以上不规则物料搬运,东风柳汽单条产线减少 15 个工位,人工成本下降 40%。电子厂中,CASBOT 01 实现 0.1mm 精度的笔记本电脑螺丝安装,良品率达 99.8%,打破 “人形机器人只能做简单动作” 的刻板印象。在工业制造领域,人形机器人的应用正在重塑生产流程,成为破解“最后一公里” 难题的关键力量。
2025-08-04 15:55:49
1849
原创 专访OpenAI「IMO金牌」团队:3个人,2个月,让通用AI站上数学之巅
其实我已经和斯坦福大学的一位数学教授通过邮件了,大约一年前,在我们发布相关成果之前,他就通过邮件问我,要不要合作解决一些难的数学问题。答案通常是肯定的,但他们抱怨的一点是,如果问模型一个它不知道答案的问题,它会输出一个听起来非常令人信服但实际上错误的答案,他们必须仔细检查才能发现问题,比如是不是模型偷偷改了一个不等式什么的。这些模型有个很酷的地方,就是虽然我看不懂证明过程,但当模型在思考时,它会用自然语言表达自己的不确定或自信,在整个过程中,它会说一些话,暗示它的状态。我觉得,数学本身就是很难的事之一。
2025-08-04 10:21:46
943
原创 ai视频关键词这么写就对了,运镜效果大大提升!
在做ai视频的时候发现运镜提示词真的太重要的,会写运镜提示词,直接把画面效果提升上去了!2025年08月04日 07:12。斯坦尼康级丝滑横移+前景遮挡穿擦。肾上腺素震颤模式(0.5s脉冲)磁吸式主体追踪+动态构图重构。量子级细节显像(毛孔级纹理)微震动手持模拟+浅景深呼吸。上帝视角几何构图+云层透视。无人机探针视角(螺旋下降)龙卷风式螺旋环绕+速度变速。呼吸感推进+轻微变售扭曲。离心力拉伸+背景动态模糊。窥视感仰角摇动+光线渐变。焦点爆破转场(径向模糊)沉浸式POV空间包裹感。星轨位移叠加动态蒙版。
2025-08-04 10:17:44
107
原创 Qwen和DeepSeek为什么都用Pre-Norm?
值得一提的是,Pytorch 中 LayerNorm 的特征统计总体其实是以 Instance Norm 的方式,同时将 scale 和 bias 设置为矢量(Instance Norm 中是标量)。是对 DeepNorm 的改进,动态调整残差缩放因子,提升训练后期的模型表达能力,从而兼顾 DeepNorm 的稳定性和 LayerNorm 的表达能力。DeepNorm 在大模型中用的不多,简单概括就是:对残差连接加入类似门控的缩放因子 α,使得超深 Transformer 在训练中更加稳定和高效。
2025-08-04 10:13:13
1587
原创 盘点一下!大模型训练的时间都花在哪了?
Chongjie2025年08月03日 17:06四川原文:https://zhuanlan.zhihu.com/p/1933883029148922068随着模型规模越来越大,大模型时代的工程能力和 research 能力逐渐变得同等重要。还记得几年前做科研经常看到一些paper改几行matlab、python,就能取得有效的的 performance。不过在当下,我估计很难了。现如今大模型的训练、复杂的代码嵌套和各种工程挑战,我觉得对曾经做学术的人来说都不是很友好。
2025-08-04 10:05:16
1016
11个代码生成相关的论文,20241022更新版本-持续更新,包含代码搜索、代码搜索、代码模型survey、代码评论评估、代码评
2024-10-22
10篇代码生成的论文,包括代码评估、代码搜索、代码生成、survey、代码或bug分类
2024-10-21
Multimodal Representation for Neural Code Search
2024-10-21
[MDPI水刊Algorithm非SCI]Program Code Generation with Generative AIs
2024-10-21
avx2_tensorflow-1.9.0-cp36-cp36m-win_amd64.zip
2020-04-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人