IT古董-CSDN博客

原创【人工智能】人工智能的数学基础

人工智能（AI）的学习路线通常分为几个阶段，涉及数学基础、编程技能、机器学习、深度学习以及相关工具的掌握。本文是对数学基础部分的整理和总结，目前不断学习整理更新中.....

2024-11-12 10:43:43 405

原创【机器学习】机器学习中用到的高等数学知识

机器学习是一个跨学科领域，涉及多种高等数学知识。掌握这些高等数学知识可以帮助理解机器学习算法的工作原理和实现过程。在实际应用中，建议结合编程实践，如使用 Python 中的 NumPy 和 SciPy 库进行线性代数和数值计算，使用 scikit-learn 进行统计分析和机器学习建模。通过理论与实践相结合，能够更深入地理解机器学习的核心概念和应用。

2024-11-07 09:38:28 877

原创人工智能学习路线

人工智能学习的过程是循序渐进的，先打好数学和编程基础，然后逐步深入机器学习和深度学习，最后通过实际项目和工具框架的使用巩固知识。

2024-10-30 14:08:07 1010 1

原创【第四章:大模型（LLM)】04.Transfomer: The foundation of LLM-(8)训练与推理

Transformer模型的训练与推理是大语言模型（LLM）构建的核心环节。训练阶段通过token嵌入、位置编码处理输入，采用交叉熵损失和Adam优化器，结合正则化技术和并行训练方法。推理阶段则采用自回归生成方式，包含贪婪解码、束搜索等策略，并运用KV缓存、量化等技术提升效率。两者在数据处理、资源消耗和解码策略上存在差异。实际应用中通过预训练、微调等策略优化模型性能，并采用动态推理技术提升效率。理解这些机制对掌握LLM架构至关重要。

2025-08-08 09:55:35 266

原创【第四章:大模型（LLM)】04.Transfomer: The foundation of LLM-(7)ResNet 与 Feed Forward：残差结构与前馈网络

本文深入解析了Transformer架构中前馈网络(FFN)和残差连接的核心作用。FFN通过两层全连接网络(如BERT-base采用768→3072→768维度变换)实现非线性特征增强，配合GELU激活函数提升模型表达能力。残差连接采用"x+F(x)"结构，有效缓解梯度消失问题，其与LayerNorm的结合方式(Pre-Norm优于Post-Norm)显著提升了深层模型的训练稳定性。文章对比了ResNet与Transformer在残差应用上的差异，指出Pre-Norm结构已成为现代LLM

2025-08-08 09:38:25 418

原创【第四章:大模型（LLM)】04.Transfomer: The foundation of LLM-(6)层归一化：不同的归一化机制

本文介绍了Transformer模型中使用的层归一化（LayerNorm）机制。相比批归一化（BatchNorm），LayerNorm独立对每个样本进行特征维度的归一化，更适合处理变长序列数据。文章对比了主流归一化方法，详细解析了LayerNorm的计算原理及其在Transformer架构中的两种应用方式（Pre-Norm和Post-Norm），指出Pre-Norm在现代大语言模型中更常用。通过PyTorch代码示例展示了LayerNorm的实现，并强调其对训练稳定性的重要作用，特别是在深层网络结构中。

2025-08-07 11:16:16 530

原创【第四章:大模型（LLM)】04.Transfomer: The foundation of LLM-(5)Multihead Attention: 从单头到多头注意力机制

本文介绍了Transformer中的多头注意力机制（Multi-Head Attention）。相比单头注意力，多头机制通过并行计算多个注意力头，分别从不同子空间捕捉信息，增强了模型的表达能力。每个头独立计算后，结果拼接并通过线性变换输出。文章详细阐述了多头注意力的数学原理、优势特点，并提供了PyTorch实现代码，包括线性变换、注意力计算和结果拼接等关键步骤。多头注意力机制能同时关注不同层次的语义信息，是Transformer架构的核心组件，在大模型中发挥重要作用。

2025-08-07 11:00:14 371

原创【第四章:大模型（LLM)】04.Transfomer: The foundation of LLM-(4)Attention：注意力机制是如何运作的

本文介绍了Transformer模型中的注意力机制（Attention），包括其动机、计算方式和应用。传统RNN/LSTM在长序列处理中存在信息遗失问题，而注意力机制通过可学习权重动态聚焦关键部分。核心是缩放点积注意力（Q、K、V矩阵计算）和多头注意力（并行捕捉多维度信息）。在Transformer中，注意力机制用于编码器（自注意力）和解码器（编码器-解码器注意力），并配合位置编码感知顺序。

2025-08-06 10:41:53 334

原创【第四章:大模型（LLM)】04.Transfomer: The foundation of LLM-(3)分词：英文分词与中文分词

本节介绍了分词（Tokenization）在自然语言处理中的重要性，并重点分析了英文分词与中文分词的差异。英文单词天然由空格分隔，但仍存在词形变化、缩写等问题，需要进一步处理。而中文没有显式分隔符，需依赖统计、词典或深度学习模型进行切分。

2025-08-06 10:21:13 736

原创泰国外卖平台 LINE MAN 产品调查报告-全面分析LINE MAN的市场地位、用户特征与运营策略

泰国外卖市场由LINEMAN（44%）和GrabFood（39.4%）主导，LINEMAN用户主要为31-35岁城市白领，月收入500-1000美元，55.5%为办公室职员。作为超级App，LINEMAN提供餐饮配送、便利购物、打车和同城快递服务，2022年收入78亿泰铢（增长88%），但亏损27亿泰铢。用户评价普遍积极（AppStore评分4.8），主要认可其快捷服务和丰富优惠。竞争对手GrabFood服务稳定但费用较高，Foodpanda已退出市场。

2025-08-05 12:21:29 241

原创【第四章:大模型（LLM)】04.Transfomer: The foundation of LLM-(2)词 Embedding 与 Position Embedding 的原理

本文介绍了Transformer模型中词嵌入(Word Embedding)和位置编码(Position Embedding)的原理与应用。词嵌入通过将词语映射为低维稠密向量，使语义相似的词在向量空间中接近，常用Word2Vec、GloVe等方法训练。位置编码则弥补了自注意力机制缺乏顺序感知的缺陷，包括绝对位置编码（使用正弦/余弦函数）、可学习位置编码（参数矩阵）和相对位置编码（关注词间距离）三种主要实现方式。最终输入是词向量与位置向量的加和，使模型同时理解语义和顺序信息。

2025-08-05 10:32:44 895

原创【第四章:大模型（LLM)】04.Transfomer: The foundation of LLM-(1)Transfomer整体架构

Transformer架构彻底革新了自然语言处理领域。该模型通过自注意力机制解决了传统RNN/LSTM的并行计算困难、长距离依赖和梯度问题。其核心创新包括多头注意力、位置编码和残差连接，支持完全并行训练。Transformer采用编码器-解码器结构，编码器通过多层自注意力提取特征，解码器结合掩码自注意力和交叉注意力生成输出。这种设计使其成为GPT、ChatGPT等大语言模型的基础，并广泛应用于机器翻译、文本生成、代码补全等多个领域。Transformer的成功奠定了现代大模型发展的技术基础。

2025-08-04 10:45:01 1114

原创【第四章:大模型（LLM)】03.Attention is all you need-(3)Attention机制的本质理解与实际应用

注意力机制（Attention）是深度学习处理序列数据的重要方法，其核心是通过动态权重分配选择关键信息，解决传统RNN/LSTM的长距离依赖问题。主要类型包括Bahdanau、Luong和自注意力（Self-Attention）等，广泛应用于机器翻译、文本摘要、图像描述和推荐系统等领域。Transformer模型采用多头注意力（MHA）机制，推动了GPT、BERT等大语言模型的发展。一个简单的PyTorch实现展示了注意力权重计算和上下文向量生成过程。注意力机制通过加权聚合有效提升了模型的信息处理能力

2025-08-04 10:15:37 617

原创【第四章:大模型（LLM)】03.Attention is all you need-(2)Encoder-Decoder 中的attention机制与原理详解

本文详解了Encoder-Decoder框架中的Attention机制原理与应用。传统Seq2Seq模型仅使用编码器最后一个隐藏状态，存在信息压缩问题。Attention机制通过计算解码器状态与编码器各隐藏状态的相关性，形成注意力分布并生成上下文向量，显著改善了模型性能。文章介绍了Dot Product、General和Additive三种score函数，以及Bahdanau和Luong两种典型Attention形式，并展示了注意力权重矩阵在机器翻译任务中的可视化效果。该机制在翻译、语音识别等任务中表现出色

2025-08-01 13:55:01 482

原创【第四章:大模型（LLM)】03.Attention is all you need-(1)Why do we need attention? Seq2Seq中的Attention

Attention机制有效解决了传统Seq2Seq模型的三大痛点：固定长度瓶颈、梯度消失和信息利用不足。其核心是通过动态加权编码器所有隐状态，使解码器能选择性关注输入序列的关键部分。Bahdanau提出的Additive Attention使用前馈网络计算相关性得分，显著提升了机器翻译等任务中长序列的处理能力。该机制不仅提高了模型性能，还增强了可解释性，为Transformer架构奠定了基础。

2025-08-01 13:43:01 482

原创【第四章:大模型（LLM)】02.神经网络中的 NLP-(3)文本情感分类实战

本文介绍了文本情感分类的完整实现流程，包括数据准备、模型选择和PyTorch实战应用。重点讲解了传统方法（TF-IDF+分类器）、深度学习方法（RNN/CNN）和预训练模型（BERT）三种技术路线的优缺点。通过LSTM模型示例展示了从数据预处理到模型训练的全过程，并指出使用BERT等大模型可显著提升分类效果。该技术可广泛应用于社交媒体分析、产品评论等领域，结合预训练语言模型微调能获得最优性能。

2025-07-29 10:46:44 598

原创《纳瓦尔宝典》知识卡片

《纳瓦尔宝典》汇集科技投资人纳瓦尔的财富与幸福智慧。核心观点：财富源于股权和被动收入，而非单纯出卖时间；幸福是内在选择，需培养平和心态；人生复利来自持续学习与独特价值创造。书中强调杠杆效应、自我认知和理性决策的重要性，为现代人提供实用的人生跃迁指南。

2025-07-29 10:17:10 207

原创颠覆原型设计！Figma Make 实测：AI 真的能帮你写完前端吗？

FigmaMake是Figma推出的AI工具，可将自然语言或设计稿转换为可交互原型或网页，支持通过聊天界面修改。基于Claude3.7模型，能生成代码并允许逐元素编辑。主要功能包括对话式UI生成、设计稿转代码、元素级迭代和原型测试，但视觉质量不稳定，复杂交互支持有限。适合快速原型验证和团队协作，未来或优化代码质量并扩展集成能力。目前虽不完善，但展现了设计开发融合的潜力，建议搭配设计系统使用。

2025-07-28 11:17:18 2247

原创【第四章:大模型（LLM)】02.神经网络中的 NLP-(2)Seq2Seq 原理及代码解析

本文介绍了Seq2Seq（序列到序列）模型的基本原理及其在自然语言处理中的应用。Seq2Seq模型由编码器和解码器组成，通过编码器将输入序列转换为上下文向量，再由解码器生成目标序列。文章详细阐述了模型架构、数学公式及训练流程，并针对传统模型的不足引入了注意力机制。通过PyTorch代码示例演示了编码器、解码器和完整Seq2Seq模型的实现方法。该模型在机器翻译、文本摘要、对话系统和语音识别等领域有广泛应用。

2025-07-28 10:39:48 533

原创 LSTM 长短期记忆网络：从原理到实战，一文读懂深度学习中的“记忆大师”

LSTM（长短期记忆网络）是一种改进的循环神经网络，专门解决传统RNN处理长序列时出现的梯度消失和梯度爆炸问题。其核心在于记忆单元和三个门控机制（遗忘门、输入门、输出门），通过选择性记忆和更新信息来保持长期依赖关系。LSTM广泛应用于时间序列预测、自然语言处理等领域，相比普通RNN具有更好的稳定性和表现力。主要变体包括GRU等简化版本。实现时可以使用Keras或PyTorch框架，通过调整参数和正则化来优化模型性能。

2025-07-28 10:10:47 602

原创【第四章:大模型（LLM)】02.神经网络中的 NLP-(1)RNN、LSTM 和 GRU 的基本原理和应用

本文介绍了循环神经网络（RNN）及其改进模型LSTM和GRU在自然语言处理中的应用。传统前馈神经网络难以处理序列数据的上下文依赖，RNN通过引入隐藏状态解决了这一问题。针对RNN存在的梯度消失/爆炸问题，LSTM通过门控机制（遗忘门、输入门、输出门）有效控制信息流，GRU则进一步简化结构为两个门（更新门和重置门）。这些模型在语言建模、文本分类、机器翻译等任务中表现优异，为现代NLP奠定了基础。尽管Transformer已成为主流，LSTM和GRU在小型模型和特定场景中仍具重要价值。

2025-07-25 13:33:36 479

原创【第四章:大模型（LLM)】01.Embedding is all you need-(6)从 Word2Vec 到推荐/广告系统，再到大语言模型（LLM）

摘要：本文探讨了Embedding技术在AI发展中的核心作用。从Word2Vec的词向量表示开始，Embedding实现了从离散符号到连续向量的转变，构建了语义空间基础。随后在推荐系统（如淘宝的item2vec）和广告系统（如Wide&Deep模型）中得到广泛应用，解决了高维稀疏特征的处理问题。随着技术演进，Transformer模型（BERT/GPT）实现了动态上下文相关的Embedding表示。最终，Embedding成为连接词向量、推荐系统和大语言模型的统一语义基础，支撑了现代AI的理解、推理

2025-07-25 11:18:09 658

原创【第四章:大模型（LLM)】01.Embedding is all you need-(5)Word2vec代码实现及应用

本文介绍了Word2vec词向量模型的原理与实现。Word2vec通过CBOW或Skip-Gram架构将词语转换为向量，使语义相近的词在向量空间中距离更近。文章以Skip-Gram为例，详细展示了使用PyTorch实现Word2vec的完整流程，包括数据预处理、模型构建、训练过程和词向量可视化。通过PCA降维将词向量投影到二维空间，直观展示词语间的语义关系。最后介绍了词向量在相似词推荐、情感分析等NLP任务中的应用，并提供了余弦相似度计算示例。

2025-07-15 10:15:56 486

原创【第四章:大模型（LLM)】01.Embedding is all you need-(4)Word2Vec之 CBOW 与 Skip-Gram

Word2Vec是自然语言处理中重要的词嵌入技术，包含两种模型架构：CBOW通过上下文预测中心词，训练速度快，适合处理高频词；Skip-Gram通过中心词预测上下文，能更好学习罕见词表示但训练较慢。二者都需要设置上下文窗口，核心思想是将语义相似的词映射到邻近向量空间。实际应用中可采用负采样和层次Softmax优化计算效率。建议使用gensim等工具实现，调整窗口大小、向量维度等参数提升效果，中文需先进行分词处理。

2025-07-15 09:56:19 822

原创【第四章:大模型（LLM)】01.Embedding is all you need-(3)该如何做Embedding？Onehot to word2vec

本文介绍了从One-hot编码到Word2Vec的词嵌入方法演变。指出One-hot编码存在高维稀疏、无法表达语义关系等缺陷。重点讲解Word2Vec的两种模型结构（CBOW和Skip-Gram）及训练方法，包括负采样等技术优化。Word2Vec通过低维稠密向量捕捉词语语义，支持"向量算术"等特性。最后对比了两种编码方式的优缺点，为后续更先进的嵌入方法（如GloVe、Transformer）奠定基础。

2025-07-09 09:30:00 570

原创【第四章:大模型（LLM)】01.Embedding is all you need-(2)如何直觉理解Embedding

Embedding是将非结构化数据（如文本、图像）转换为低维稠密向量的技术，类似于将概念映射为数字坐标。通过距离和方向表达语义关系，解决了传统编码无法表示相似性的问题。常见应用包括Word2Vec、BERT等，通过神经网络学习实现，可用于分类、聚类等任务。可视化显示相似概念在向量空间中聚集，方向反映语义关联。作为大模型的基础，Embedding是理解复杂信息的关键第一步。

2025-07-08 10:41:07 495

原创【第四章:大模型（LLM)】01.Embedding is all you need-(1)Why embedding is all you need?

大模型的核心基石：Embedding技术解析摘要：Embedding（嵌入表示）是现代大模型处理离散数据的核心技术，它将文本、图像等转化为连续的向量表示。作为连接原始数据与神经网络的桥梁，Embedding不仅能捕捉语义关系和上下文信息，还具有强大的通用性和迁移能力。在Transformer架构中，注意力机制等核心操作都在Embedding空间完成。研究表明，构建高质量的表示空间可以简化模型结构，使许多任务仅需在向量空间进行简单计算即可完成。该技术已广泛应用于NLP、CV、推荐系统等多领域。

2025-07-08 10:28:35 574

原创模型微调（Fine-tuning）详解

模型微调（Fine-tuning）是迁移学习的重要技术，通过在预训练模型（如BERT、ResNet）基础上针对特定任务进行二次训练，显著降低训练成本。核心流程包括：选择预训练模型、调整输出层、冻结参数（可选）、设置优化器。微调策略分为冻结特征层、部分微调或全参数调整，关键技巧包括小学习率、正则化和数据增强。PyTorch示例展示了ResNet的微调方法。轻量化微调技术（如LoRA、Adapter）进一步降低大模型微调成本。该技术广泛应用于图像分类、NLP等领域，是实现高效AI迁移的核心手段。

2025-07-07 09:34:51 1235

原创【第三章:神经网络原理详解与Pytorch入门】02.深度学习框架PyTorch入门-(6)Pytorch进阶训练（自定义loss、模型微调、数据增强）

本文介绍了PyTorch进阶训练的三大关键技术：1）自定义Loss函数，通过继承nn.Module实现特定任务的损失计算；2）模型微调方法，包括冻结预训练模型参数和替换输出层；3）数据增强技术，使用torchvision.transforms进行图像变换以提升模型泛化能力。文中提供了代码示例，并对比了三种技术的作用场景，如加权MSE损失、ResNet迁移学习和随机旋转/翻转等数据增强方式。这些方法能有效优化模型性能，是深度学习实践中的重要技能。

2025-07-07 09:17:56 602

原创【第三章:神经网络原理详解与Pytorch入门】02.深度学习框架PyTorch入门-(5)PyTorch 实战——使用 RNN 进行人名分类

本文介绍了使用PyTorch实现RNN进行人名分类任务的完整流程。首先通过Unicode标准化处理原始数据，构建字符级one-hot输入张量。然后实现了一个单层RNN模型，包含输入层、隐藏层和LogSoftmax输出层。训练过程采用负对数似然损失和手动梯度下降。最后展示了预测函数的使用方法，并建议扩展为LSTM/GRU模型，使用优化器以及可视化训练过程。该案例完整呈现了字符级序列分类任务的实现要点。

2025-07-06 09:45:00 516

原创【第三章:神经网络原理详解与Pytorch入门】02.深度学习框架PyTorch入门-(4)Pytorch实战

本文介绍了PyTorch中神经网络模型的构建与修改方法。主要内容包括：1）通过继承nn.Module类构建复杂网络结构，示例演示了CNN的实现；2）模型动态修改技巧，如替换现有层或添加新层；3）模型保存与加载的两种方式，推荐使用state_dict保存权重参数；4）完整训练流程回顾。重点强调了自定义网络结构、灵活修改模型层以及正确的模型保存/加载方法，为深度学习实践提供了基础框架。

2025-07-06 09:30:00 282

原创【第三章:神经网络原理详解与Pytorch入门】02.深度学习框架PyTorch入门-(3)Pytorch实战

本文详解了PyTorch框架下ResNet残差网络的实现原理与应用。首先介绍了ResNet通过残差连接解决深层网络梯度消失问题的核心思想。随后解析了ResNet18的关键代码模块，包括BasicBlock结构、_make_layer方法和网络初始化过程。并以FashionMNIST数据集为例，完整演示了数据预处理、模型训练和评估的全流程。通过调整输入尺寸、定义损失函数和优化器，实现了图像分类任务，最终在测试集上评估模型准确率。该案例展示了PyTorch构建深度神经网络的标准流程和ResNet的核心优势。

2025-07-05 09:45:00 252

空空如也

空空如也