- 博客(28)
- 收藏
- 关注
原创 大模型核心组件结构与计算顺序详解(Embedding/FFN/LayerNorm等)
本文将详细解析大模型中Embedding、前馈神经网络(FFN)、LayerNorm、Softmax、MoE、残差连接的作用及计算顺序,帮助理解Transformer类模型的底层逻辑。
2025-07-15 17:03:02
319
原创 深度学习中的归一化技术详解:BN、LN、IN、GN
本文全面解析四种主流归一化技术:BatchNorm、LayerNorm、InstanceNorm 和 GroupNorm,涵盖原理、计算方式、适用场景及PyTorch实现。
2025-07-11 16:01:45
1044
原创 Attention机制完全解析:从原理到ChatGPT实战
Attention不是简单的"理解输入",而是通过动态权重分配+信息融合实现上下文感知。实际应用中需与Embedding配合,并根据任务需求选择注意力变体。
2025-07-09 13:39:26
884
原创 双向注意力 vs 上下文学习:区别与联系
区别本质双向注意力是模型内部的表示学习方法,上下文学习是外部的任务适配范式实践建议需要强上下文理解的任务(如NER)→ 优先选择双向注意力模型(如BERT)需要快速任务适应的场景(如对话系统)→ 采用上下文学习(如GPT-3提示工程)``
2025-07-08 20:00:00
1800
原创 Transformer编码器的致命伤:双向注意力低秩问题深度解析
本文深入剖析Transformer编码器中双向自注意力的低秩瓶颈问题,揭示其成因、影响与解决方案。
2025-07-07 16:24:37
794
原创 AI产品面试问题系列1
AI产品全流程指南摘要:本文系统梳理AI产品开发四大关键环节。技术基础篇强调问题驱动、数据闭环和持续迭代三大核心要素;工程部署篇详解模型服务方式、版本控制和推理优化策略;业务场景篇提供智能客服、推荐系统等典型应用方案;商业伦理篇涵盖定价模式、算法偏见应对和ROI计算。全文包含30个实操问答,辅以案例、流程图和量化指标,为AI产品经理提供从开发到落地的完整方法论。
2025-07-02 11:32:44
457
原创 LLM与熵:用「不确定性」理解大语言模型的核心原理
本文用“不确定性”串联起大语言模型(LLM)与信息论中的熵:熵衡量语言的不确定性(比如猜词难度);LLM的核心能力是通过上下文学习大幅降低这种熵,精准预测下一个词;训练关键是减小预测与真实分布的差异(交叉熵损失);温度参数像调节旋钮:高温增加熵(创意迸发),低温压制熵(稳定输出)。理解熵就抓住了LLM驯服语言随机性的本质——它既是智能的标尺,也是控制AI创造力的钥匙。
2025-06-27 11:18:29
443
原创 【Docker 部署】FastAPI + Python + Vue.js
通过以上步骤,你可以快速实现 FastAPI + Vue.js 的前后端分离项目,并通过 Docker 进行容器化部署。
2025-03-03 10:27:31
520
原创 python实现并行计算的多种方法
Python可以通过多线程、多进程、并发库、异步编程或分布式计算框架实现并行计算。选择哪种方式取决于任务类型(CPU密集型或I/O密集型)以及计算规模。
2025-03-03 09:47:14
565
原创 基础知识3
MySQL 的存储引擎种类丰富,每种引擎都有其独特的优势和适用场景。在实际应用中,选择合适的存储引擎需要根据业务需求、数据特点和性能要求来决定。如果需要事务支持和高并发处理,推荐使用InnoDB。如果以读操作为主且对事务要求不高,可以选择MyISAM。对于临时数据存储,Memory是一个不错的选择。MySQL 的存储引擎种类丰富,每种引擎都有其独特的优势和适用场景。在实际应用中,选择合适的存储引擎需要根据业务需求、数据特点和性能要求来决定。如果需要事务支持和高并发处理,推荐使用InnoDB。
2025-02-24 20:41:52
857
原创 【python】提取word\pdf格式内容到txt文件
替换为实际保存处理后文件的文件夹路径。运行代码后,处理后的文本将保存到指定的输出文件夹中。:此函数将分词后的结果用空格连接成字符串,方便后续保存到文件。替换为实际包含 PDF 和 Word 文件的文件夹路径,将。
2025-02-24 10:31:44
1905
原创 在 Windows 系统下使用 VS Code 通过 SSH 连接 GitHub 并进行操作手册
在 Windows 系统下使用 VS Code 通过 SSH 连接到 GitHub,并完成从克隆仓库到日常版本控制的一系列操作。
2025-02-19 13:35:41
920
原创 基础知识2
资源分配单位进程是操作系统资源分配的基本单位,拥有独立的内存空间(代码区、数据区、堆栈区)。线程是CPU调度和执行的基本单位,属于进程的子任务,共享进程资源(如全局变量、文件描述符等)。包含关系一个进程至少包含一个线程(主线程),线程是进程的执行路径,两者为容器与执行流的关系。并发(Concurrency):指在同一时间段内处理多个任务的能力。多个任务通过时间片轮转、交替执行,宏观上看似同时进行,微观上是顺序执行。例如,单核CPU通过快速切换线程实现多任务处理。
2025-02-17 22:39:33
731
原创 信息搜索技巧
微信搜索搜狗搜索百度搜索谷歌搜索duckduckgokagigobaidugletineye:以图搜图淘声:声音资源谷歌学术sci-hub:英文论文百度资源:学搜搜、云搜搜、云盘狗。
2025-02-14 15:12:47
197
原创 基础知识1
TCP/IP模型和OSI模型是两种常用的网络模型,用于描述网络通信的层次结构和协议栈。它们在层次划分、协议设计和应用场景上存在一些区别。层次划分OSI模型(Open Systems Interconnection)七层结构:物理层(Physical Layer):负责传输原始比特流,定义电气、机械和功能特性。数据链路层(Data Link Layer):负责将比特封装成帧,提供链路访问和错误检测。网络层(Network Layer):负责路由选择和分组转发,例如IP协议。
2025-02-11 15:41:23
667
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人