
大模型
文章平均质量分 89
murphymeng2001
我是一名经验丰富的架构师,毕业于天津大学,获得计算机硕士学位,同时还拥有 深度学习架构师、PMP、NPDP 证书。在过往的工作经历中,我曾在多个项目里担任核心开发角色,专注于后端架构设计。如今,我正积极学习人工智能技术,探索深度学习与数据科学领域。希望能与更多志同道合的朋友一起交流讨论,分享技术心得,共同进步!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深入理解 Transformer:原理、架构与注意力机制全景图解
Transformer 架构以其简洁、高效和强大的表示能力,奠定了现代 AI 的技术基础。从本文你应该掌握:三种注意力机制的来源、功能与差异编码器与解码器的模块拆分与计算路径Transformer 的完整数据流动图与模块职责基于 PyTorch 的结构化伪代码框架。原创 2025-04-20 10:39:42 · 2554 阅读 · 0 评论 -
深入浅出 Multi-Head Attention:原理 + 例子 + PyTorch 实现
简单说,多头注意力就是一种让模型在多个角度“看”一个序列的机制。在自然语言中,一个词的含义往往依赖于上下文,比如:“我把苹果给了她”模型在处理“苹果”时,需要关注“我”“她”“给了”等词,多头注意力就是这样一种机制——从多个角度理解上下文关系。项目解释目的提升模型表达能力,从多个角度理解输入核心机制将向量分头 → 每头独立 attention → 合并输出技术关键viewtransposematmulsoftmax, 拼接线性层。原创 2025-04-18 10:30:29 · 2340 阅读 · 0 评论 -
使用 LangChain 和 DeepSeek 构建文案助手智能体
LangChain 是一个高度灵活的框架,允许开发者将大语言模型(如 GPT)与各种外部工具结合使用,构建功能丰富的智能体。LangChain 的核心原理是将多个功能组合成一个智能体,以便在复杂的任务中实现自动化。原创 2025-03-31 16:17:15 · 1535 阅读 · 0 评论 -
从 DeepSeek 到 GPT:如何为不同 AI 任务选择合适的计算资源?
等大模型的训练与推理对计算资源的需求越来越高。,运行小型 AI 任务(如 DeepSeek-7B 推理、ResNet-18 训练),或运行 Transformer 任务,建议。随着 AI 领域的飞速发展,从。),帮助你选择最适合的方案。,适用于大规模 AI 任务。,对比本地 GPU(如。(如阿里云、AWS)提供。,避免显存不足问题。原创 2025-03-12 11:31:44 · 850 阅读 · 0 评论