自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(557)
  • 收藏
  • 关注

原创 莎士比亚风格的文本生成任务

摘要:莎士比亚风格文本生成是NLP中的风格迁移任务,需模仿其古英语词汇(thou/thee)、倒装句式和五音步韵律等特征。实现方法包括:1)微调GPT等预训练模型;2)基于LSTM从零训练字符级模型。建议使用Project Gutenberg的莎士比亚语料,并加入韵律控制模块增强效果。典型输出如"Thy love hath made mine eyes forget thy sight",展现伊丽莎白时代的诗性语言特征。关键挑战在于准确捕捉早期现代英语的语法变异和戏剧性修辞。

2025-07-18 16:58:31 228

原创 CRF模型

摘要:条件随机场(CRF)是一种序列标注概率图模型,通过全局建模输出标签序列的条件概率,克服了HMM和MEMM的局限性。它在NLP任务中表现优异,支持多种特征组合,但依赖特征工程且训练较慢。现代方法常将CRF与BiLSTM、BERT等神经网络结合,如BiLSTM-CRF和BERT-CRF模型,通过深度特征提取提升性能。典型应用包括命名实体识别,Python实现可使用sklearn-crfsuite库,需自定义特征函数。CRF的核心优势在于序列建模能力,但面临特征工程复杂、计算成本高等挑战。(149字)

2025-07-18 16:54:18 70

原创 DeepSeek-R1:开源推理模型的突破

DeepSeek-R1 是一款基于混合专家(MoE)架构的大语言模型,基于 DeepSeek-V3 开发,拥有6710 亿参数,但每次推理仅激活 370 亿参数,极大地优化了计算效率。它的设计目标是解决复杂推理任务,例如数学问题、编程挑战和逻辑推理,性能可媲美 OpenAI 的 o1 模型。与基础模型 DeepSeek-V3 不同,R1 通过纯强化学习(RL)和多阶段训练(包括两个 RL 阶段和两个监督微调阶段)进行了优化,显著提升了输出的可读性和一致性。DeepSeek-R1 的训练采用了。

2025-07-17 20:01:32 526

原创 DeepSeek

DeepSeek是一家中国 AI 创企,成立于 2023 年,发布了一系列开源的、大规模且低成本的语言模型(自 2023 年底发布首个基础版本以来,DeepSeek 快速迭代,已成为全球开源 LLM(大语言模型)中的领军者。优点内容说明性能领先MMLU、数学、代码等 benchmark 上超越多数开源与闭源模型高度可扩展MoE 架构仅激活部分专家,降低推理成本长文本处理能力强支持高达 128K tokens 文本输入开源与透明度高模型和论文开放供社区使用与研究训练与运行成本低。

2025-07-17 19:51:00 652

原创 GPT-3预训练模型

项目内容发布机构OpenAI发布时间2020 年 6 月模型结构Transformer Decoder-only(仅使用解码器结构)输入方式自回归方式(基于上下文预测下一个 token)预训练任务无监督语言建模(language modeling)主要特点大规模预训练 + 零/少样本泛化能力 + 通用任务提示适应能力(prompting)GPT-3 不仅在自然语言生成方面表现优异,还在翻译、问答、编程、摘要、逻辑推理等多种任务上均具备能力。

2025-07-17 19:43:40 756

原创 GPT-2预训练模型

摘要:GPT-2是OpenAI于2019年发布的Transformer架构自回归语言模型,参数量从1.17亿到15亿不等,具有强大的文本生成能力。它采用Decoder-only结构,支持零样本推理,适用于文本生成、问答等任务,但存在输入长度限制和缺乏双向理解等不足。尽管后续GPT-3等模型性能更强,GPT-2凭借开源特性仍是轻量级应用的首选。HuggingFace平台提供了便捷的调用接口,支持直接使用和领域微调。

2025-07-17 19:38:15 553

原创 XLNet 预训练模型

属性内容模型名称XLNet提出机构发布时间2019 年基础架构Transformer-XL(带有相对位置编码)最大特点Permutation Language Modeling(排列语言建模)主要目标结合 BERT(MLM)和 GPT(Auto-regressive)的优点项目内容模型类型自回归 + 自编码混合型 Transformer特点Permutation LM、Transformer-XL 架构优势保留词序、无信息泄露、捕捉更丰富上下文应用效果。

2025-07-16 21:28:59 602

原创 ERNIE预训练模型

项目内容全称提出者百度 Baidu首次发布2019 年模型结构BERT 改进型,使用 Transformer Encoder 架构主要目标融合先验知识(如实体、词组、句法)进行预训练应用场景分类、匹配、问答、抽取等各类 NLP 任务模型特点内容架构类型主要创新实体级 mask、多任务知识融合代表性任务中文 NLP(分类、匹配、问答)性能表现中文任务优于 BERT 等基础模型是否开源是,部分模型参数可在 Hugging Face 获取。

2025-07-16 21:24:46 552

原创 DeBERTa预训练模型

特性内容全称提出者发布时间2021 年基础架构主要特点解耦注意力机制 + 相对位置编码 + 解码增强模型开源项目内容模型名称DeBERTa提出单位架构类型Encoder-only (BERT 类 Transformer)创新点解耦注意力机制 + 相对位置编码优势精度更高,泛化更强使用推荐推荐用于高精度自然语言理解任务。

2025-07-16 21:20:51 541

原创 T5预训练模型

特性内容提出团队Google Research (Colin Raffel 等)论文名称架构基于 Transformer 的 Encoder-Decoder统一方式输入、输出全部是文本模型名称项目内容核心理念所有 NLP 任务皆转为 Text-to-Text架构预训练应用分类、生成、翻译、摘要、问答、句子重写等工具库支持良好,可直接部署。

2025-07-16 21:16:19 477

原创 长文本预测任务使用BERT构造训练样本

场景推荐策略关键信息在前直接截断前 512信息分布均匀滑动窗口前后重要,中间可舍首尾拼接结构清晰、长文层次式 BERT高效高性能需求Longformer、BigBird、RoBERTa 等。

2025-07-16 20:54:36 222

原创 BERT的MLM任务采用80% 10% 10%的策略的原因

BERT 采用 80%[MASK]模拟真实语言环境,避免模型只学会猜[MASK]提高泛化能力与鲁棒性提供更丰富的学习信号,提高语义建模能力这种比例已被实践验证,在 NLP 预训练中是个极具代表性的设计。如果你有兴趣,我还可以展示一下用 PyTorch 实现这个 masking 策略的代码。是否需要?

2025-07-16 20:48:33 527

原创 GPT-4预训练模型

GPT-4全称为,由 OpenAI 于 2023 年 3 月发布。其核心思想仍然基于自回归 Transformer 解码器架构,但在训练数据、模型参数、能力边界、稳定性和推理能力方面做了大幅优化。项目描述发布机构OpenAI架构类型Transformer Decoder(自回归)支持模态文本 + 图像(多模态)能力类型语言生成、代码生成、数学推理、视觉理解等支持语言多达 26 种以上,表现更均衡项目GPT-4 总览模型定位通用 AI 能力平台代表特征多模态、强逻辑、长上下文。

2025-07-15 23:18:56 836

原创 GPT预训练模型

GPT是一种基于Transformer架构的自回归语言模型,由OpenAI开发。它采用"预训练+微调"模式,在文本生成、对话等NLP任务中表现优异。核心架构为Decoder-Only Transformer,通过自注意力机制建模语言规律。GPT系列从最初的1.1亿参数发展到GPT-4的多模态版本,具备few-shot学习能力。优势包括强大的生成能力和任务泛化性,但也存在计算资源消耗大、长文处理受限等不足。典型应用涵盖对话系统、代码生成等领域,可通过HuggingFace等工具快速部署。相

2025-07-15 21:48:18 795

原创 ELMo模型

属性ELMo 模型解释模型结构双向语言模型(BiLSTM + char-CNN)表达方式每个词根据上下文获得不同的向量应用方式作为词向量输入给下游模型(不可微调参数)优势上下文感知、无 OOV、支持多层加权组合不足模型较重,训练慢,不支持端到端 fine-tunes_j%5Cgamma。

2025-07-15 17:10:02 434

原创 Transformer可以代替seq2seq的原因

Transformer 能够全面替代传统的,主要是因为它在建模能力、效率和可扩展性上全面优于基于 RNN 的 Seq2Seq。以下是原因的详细解析。

2025-07-15 15:02:16 490

原创 Transformer 相比于传统的 RNN优势

Transformer在NLP领域展现出比RNN/LSTM/GRU更强的性能优势。其核心优势包括:完全并行计算能力、更好的长距离依赖建模、多头注意力机制带来的多维语义表达、以及更适合大规模预训练的特性。通过自注意力机制,Transformer能同时处理整个序列,克服了RNN的顺序计算限制,显著提升了训练效率和模型表达能力。这些优势使得Transformer成为BERT、GPT等现代NLP模型的基础架构,并成功应用于机器翻译、文本生成等任务。

2025-07-15 14:56:59 862

原创 Transformer:采用Multi-head Attention的原因和计算规则

h: 注意力头的个数(例如 8)d_k: 每个头的维度,通常总体输出维度保持为d_model名称说明注意力头数 h一般为 8 或 12每个头的维度 dₖ通常 dₖ = d_model / h计算过程对每个头单独计算 Self-Attention并行性所有头同时计算,适合 GPU 并行加速优点多角度理解 token 关系,增强表达力Multi-Head Attention = 多个不同“角度”的 Self-Attention + 拼接 + 映射整合。

2025-07-15 11:51:54 807

原创 Transformer :Self-Attention(自注意力机制)

特性说明全局上下文每个词都能与所有其他词交互位置无关不依赖相对/绝对位置,可与位置编码组合使用并行计算所有 token 同时处理,速度快灵活建模根据不同输入动态学习注意力分布Self-Attention 是 Transformer 模型的核心灵魂,既实现了强大的表达能力,又兼顾了效率。掌握了它,就为理解整个 Transformer 奠定了基础。

2025-07-15 11:05:00 785

原创 Transformer:结构中的Decoder端具体输入

模块输入来源说明左移后的目标序列用于构建输入 token 表示位置索引编码 token 顺序Decoder 自己生成的 token 序列加掩码,防止看未来Encoder 的输出引入源语言语义信息上一步注意力机制的输出非线性转换,提升表达能力。

2025-07-15 10:51:42 367

原创 Transformer:结构及各个子模块的作用

模块作用多头注意力机制提取不同位置之间的依赖关系前馈全连接层对每个 token 向量做非线性加工残差连接保留原始信息,缓解深度训练问题层归一化(LayerNorm)提高训练稳定性,加速模型收敛位置编码添加顺序信息,保留位置信息编码器-解码器注意力解码器获取输入的全局语义表示%20b_2。

2025-07-15 10:40:46 658

原创 Transformer:self-attention公式中添加scaled的原因

项目有缩放(推荐)无缩放(问题)数值稳定性✅ 点积值适中❌ 点积值过大softmax 平滑性✅ 梯度易于传播❌ 梯度消失,训练困难收敛速度✅ 更快❌ 更慢理论依据Transformer 原始论文推荐dkd_kd_kd_kq_ik_i。

2025-07-13 10:45:51 394

原创 为什么投资人工智能?——评Sarah Guo的TED演讲

在2024年1月的TED演讲中,技术专家兼风险投资家Sarah Guo主张,每个人都应投资人工智能(AI),无论是以时间、金钱还是关注度的形式。她认为,AI正处于技术新时代的开端,投资AI不仅适用于专业投资者,也适用于普通人,并分享了一个识别AI机会的框架:关注AI如何提升效率、创造新市场及解决社会问题。Guo强调,AI的潜力在于它能成为个人和企业的“倍增器”,但也警告忽视AI可能导致落后。她提供的数据显示,AI市场正迅速扩展,但她并未详细说明风险,如技术局限或社会影响。本文从Guo的论点、数据支持及潜在争

2025-07-11 22:38:36 242

原创 人工智能如何驱动经济增长?——评Cathie Wood的TED演讲

在2023年12月的TED演讲中,ARK Invest创始人Cathie Wood探讨了人工智能(AI)如何通过与机器人、区块链、能源存储和多组学测序等五大创新平台的协同作用,驱动指数级经济增长。她预测,AI的催化作用将推动全球GDP增长从2-3%加速至6-9%,并显著提升生产力,尤其在自动驾驶出租车等市场,预计未来5-10年将创造8-10万亿美元的收入。Wood认为,技术融合将带来“创造性破坏”,颠覆传统行业,同时催生新的经济机会。尽管她的观点基于技术进步的乐观预期,但也面临风险,如技术普及的滞后、监管限

2025-07-10 22:41:56 664

原创 论《Gary Marcus演讲的<失控的人工智能的紧​​迫风险——以及如何应对>》

在 TED 演讲《The urgent risks of runaway AI — and what to do about them》中,认知科学家 Gary Marcus 阐述了人工智能迅猛发展的潜在风险,尤其是“失控的AI”对社会、政治与安全带来的深远影响。他指出,许多当前被称为“智能”的AI系统,其实只是通过大规模数据拟合出的语言模板,并不能真正理解人类的意图。面对AI时代的快速到来,我们不能仅仅仰赖技术进步带来的“自然演化”,而应主动设定规则,构建治理机制,保障人类福祉。

2025-07-09 23:39:22 893

原创 加载和使用预训练模型

HuggingFace Transformers库提供了便捷的预训练模型调用方式,支持BERT、GPT等各类模型,适用于文本分类、生成、问答等任务。文章详细介绍了安装方法、模型加载流程、输入编码与输出处理,并展示了如何使用BERT进行文本分类和中文处理。同时还讲解了模型微调和GPT-2文本生成的具体操作,最后总结了常见模型及其适用场景。通过该工具库,开发者可以轻松利用预训练模型完成高质量的NLP任务。

2025-07-09 17:21:40 232

原创 BERT 预训练模型

BERT是由Google AI在2018年提出的里程碑式预训练语言模型,采用双向Transformer编码器结构,大幅提升了多项NLP任务表现。其核心创新在于双向上下文编码和两种预训练任务:掩码语言模型(MLM)和下一句预测(NSP)。BERT具有多种变体(如RoBERTa、ALBERT等),适用于文本分类、问答系统等任务,通过HuggingFace等工具库可快速实现调用。虽然存在训练资源消耗大等局限,但作为NLP领域的奠基性模型,BERT仍是最可靠的基座模型之一。

2025-07-09 13:24:33 654

原创 NLP 中常用的预训练模型综述

预训练模型(Pre-trained Model)是指在大规模语料(如维基百科、新闻语料、社交网络数据)上预先训练好的通用语言模型。它们捕捉了语言的语义、结构和上下文信息,可以迁移到下游任务,如分类、问答、翻译等。建议方向实践建议初学者选择 BERT、RoBERTa 等结构清晰、资料丰富的模型中文任务使用 Chinese-BERT、ERNIE、RoFormer 等多语言处理选择 mBERT、mT5、XLM-R推理和逻辑任务使用 DeBERTa、RoBERTa、T5文本生成。

2025-07-09 13:18:31 685

原创 WNLI 数据集详解:最难的自然语言推理任务之一

WNLI是GLUE基准中的一项特殊自然语言推理任务,源自Winograd Schema Challenge,专注于代词消解和常识推理。该任务需判断假设句子能否从前提中逻辑推导,具有数据量小(仅635训练样本)、标注质量参差不齐的特点。GLUE官方建议不要针对WNLI进行优化,因其测试集与验证集存在重复。虽然可用BERT等预训练模型微调,但更适合作为测试模型代词解析能力的工具而非主要训练数据。使用需注意标注噪声和数据泄露风险,建议在报告中明确说明不对该任务结果过度调参。

2025-07-09 10:34:14 624

原创 RTE 数据集详解:文本蕴涵识别的经典任务

RTE(识别文本蕴涵)是GLUE基准中的关键任务,旨在判断前提与假设句子的逻辑关系(蕴涵或非蕴涵)。该数据集包含约2,500条训练样本,适用于文本验证、问答系统等场景。典型处理流程包括:使用BERT等预训练模型进行微调,通过分词、编码、训练等步骤构建分类器。建议采用迁移学习(如先在MNLI预训练)、数据增强和多任务联合训练等策略提升性能。该任务对语言理解能力要求高,是测试模型推理能力的有效基准。

2025-07-09 10:31:24 268

原创 QNLI 数据集详解:基于问答的自然语言推理任务

QNLI是GLUE基准中的自然语言推理任务,源自SQuAD问答数据集。它将问题与句子配对,判断句子是否能回答问题,输出"entailment"或"not_entailment"。与原始QA不同,QNLI是二分类任务而非答案提取。该任务可用于信息检索、问答系统等场景,数据规模约10万训练样本。实践上可用BERT等模型处理,通过HuggingFace加载数据集,进行训练和推理。推荐使用BERT、RoBERTa等模型,其中DeBERTa在多项NLI任务中表现优异。

2025-07-09 10:26:22 247

原创 MNLI 数据集详解:多领域自然语言推理基准

MNLI(多领域自然语言推理)是由纽约大学和谷歌联合提出的文本对分类数据集,属于GLUE基准评测的核心任务。该数据集包含39万条样本,要求判断前提句与假设句之间的逻辑关系(蕴含/矛盾/中立),涵盖新闻、小说等10个文本领域。提供匹配(matched)和不匹配(mismatched)两个验证集,主要用于测试模型跨领域泛化能力。通过BERT等预训练模型进行微调后,可应用于问答系统、内容审核等需要逻辑推理的场景。该数据集已成为评估自然语言理解能力的重要基准。

2025-07-09 10:21:53 626

原创 STS-B 数据集详解:衡量句子之间的语义相似度

STS-B(语义文本相似度基准)是GLUE基准中的句子语义相似度评估数据集,要求模型预测两个句子间的相似度得分(0-5分)。该回归任务采用皮尔逊和斯皮尔曼相关系数评估模型性能。数据集包含5,749条训练样本,适用于搜索优化、推荐系统等场景。推荐使用BERT、Sentence-BERT等模型,通过HuggingFace可快速实现模型训练与预测。与QQP/MRPC分类任务不同,STS-B更注重连续语义相似度的精准评估。

2025-07-09 10:16:52 629

原创 QQP 数据集详解:判断两个问题是否在问同一件事

QQP(Quora Question Pairs)是Quora提供的用于判断两个问题是否语义相似的标准数据集,属于自然语言处理中的句子对分类任务。其目标是通过模型自动识别重复提问,提高问答效率。数据集包含约80万条人工标注的问题对,标签为1表示语义重复,0表示不同。该任务难点在于处理表达方式多变、隐含语义等问题。常用评价指标包括准确率和F1分数。实践应用中,可通过BERT等预训练模型进行微调处理。QQP广泛应用于搜索引擎、智能问答等场景,是评估句子相似度建模能力的重要基准。

2025-07-09 09:31:10 553

原创 MRPC 数据集详解:教 AI 判断两句话是否是“同义改写”

MRPC(微软研究院同义句语料库)是自然语言处理领域用于评估句子语义理解的经典数据集,包含从新闻网站收集的5,801对人工标注的英文句子,任务目标是判断句子对是否表达相同含义。该数据集通过主动/被动转换、同义词替换等语言现象,有效测试模型深层语义理解能力,评估指标采用准确率和F1值。顶级预训练模型如RoBERTa在此任务上F1值可达90%+。该技术在搜索引擎、问答系统等场景有重要应用价值,是衡量模型语义理解能力的权威基准之一。

2025-07-09 09:26:12 245

原创 论《Briana Brownell演讲的<人工智能如何学习?>》

摘要:在TED演讲《How does artificial intelligence learn?》中,数据科学家Briana Brownell以浅显易懂的方式阐释了人工智能的学习机制。她通过"孩子识别猫狗"的类比,说明AI是通过数据训练、错误反馈和迭代优化来"学习"的。演讲介绍了监督学习、非监督学习和强化学习等不同方法,同时强调AI并非智能体,而是依赖人类输入和判断的工具。Brownell保持中立立场,既指出数据偏见可能带来的风险,也强调AI作为工具的潜力。她认为理

2025-07-08 22:57:39 824

原创 SST-2 数据集详解:NLP 情感分析的黄金标准

SST-2是GLUE基准中的英文情感分析任务,源自斯坦福大学的电影评论数据集,用于判断句子情感倾向(积极/消极)。相比五分类的SST-1,SST-2采用二分类形式(0=负面,1=正面),包含约67,000条训练数据。该任务需要理解复杂语义(如反讽),顶级模型准确率可达95%+。HuggingFace提供了BERT等预训练模型的实现方案。SST-2的情感分析技术广泛应用于商品评论、舆情监控等领域,是评估NLP模型情感理解能力的重要基准。

2025-07-08 22:43:47 723

原创 CoLA 数据集详解:教 AI 分辨“通顺”英文

项目内容名称任务判断英文句子是否语法可接受类型二分类(Acceptable / Unacceptable)特点来自语言学论文,数据精炼、挑战性高评估应用测试模型语言结构理解能力,常用于评估 BERT、GPT 等。

2025-07-08 22:23:34 272

原创 全面了解 GLUE 数据集:自然语言理解的试金石

摘要:GLUE基准是自然语言理解领域的标准化评估平台,包含9种不同难度的语言任务,涵盖语法判断、情感分析、语义推理等。该基准由纽约大学等机构于2018年推出,推动构建通用语言模型的发展。GLUE提供统一格式的数据集和评估接口,与HuggingFace等工具深度集成。BERT等主流模型都通过GLUE证明性能,其进阶版SuperGLUE则提出了更高要求的挑战。作为NLP领域的"标准化考试",GLUE已成为衡量语言模型理解能力的重要指标。

2025-07-08 22:04:00 753

原创 迁移学习理论:让AI举一反三

迁移学习(Transfer Learning)是指:把在一个任务中学到的知识迁移到另一个相关但不同的任务中,从而提升新任务的学习效率和效果。举个例子:你学会了骑自行车,再学骑摩托车就容易多了,因为你已经掌握了平衡和转向的技能。这就是人类的“迁移能力”。机器学习中也一样:如果我们已经在数百万篇新闻上训练了语言模型(如 fastText、BERT),那么面对一个小型医疗文本分类问题,就可以迁移预训练的模型来加速学习、提升效果。

2025-07-08 16:33:23 941

matlab-R2024b-Windows.exe 安装包

matlab 安装包(最新) 注意:有学生邮箱账号,可以免费(google)

2024-09-25

pycharm 2018.3.5 安装包

pycharm 2018.3.5 安装包+Python开发

2024-09-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除