
NLP自然语言
文章平均质量分 87
AI小任
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python----NLP自然语言处理(Doc2Vec)
Doc2Vec是Google在2014年提出的文档向量表示模型,基于Word2Vec扩展而来。它通过引入文档标签作为额外输入,生成固定长度的文档向量,适用于文本分类、聚类、相似度计算和信息检索等任务。Doc2Vec包含两种训练模式:DBOW(类似Skip-gram)和DM(类似CBOW),分别适用于不同场景。文中以处理《三国演义》文本为例,展示了如何使用jieba分词和gensim库实现Doc2Vec模型训练,并演示了词向量相似度计算和文档相似度检索功能。实验结果显示,模型能够有效捕捉"荆州&qu原创 2025-07-21 08:41:13 · 672 阅读 · 0 评论 -
Python----NLP自然语言处理(FastText)
FastText是由Facebook开发的高效词向量与文本分类工具,通过创新的子词机制解决了传统词向量模型的局限性。该机制将单词拆分为子词(如中文单字或英文词缀),通过组合子词向量表示完整单词,有效处理未登录词并捕捉形态学信息。在中文处理中,FastText能利用汉字组合特征(如"质量"和"量化"共享"量"的语义),显著提升罕见词处理能力。实践案例展示了FastText在中文文本(《三国演义》)中的训练过程,包括子词参数设置(min_n=2,max原创 2025-07-20 09:59:29 · 1127 阅读 · 0 评论 -
Python----NLP自然语言处理(Glove)
GloVe是一种基于全局共现统计的词向量模型,相比Word2Vec能更好地捕捉词语间的语义关系。其核心是构建共现矩阵,通过统计单词在上下文窗口内的共现频率来训练词向量。本文展示了使用GloVe处理《三国演义》文本的完整流程:包括jieba分词、数据清洗、构建共现矩阵(窗口大小为10)、训练20维词向量(学习率0.05,10个epochs),以及查询词向量和语义相似词等应用。实验表明,GloVe能有效学习词语的分布式表示,如"主公"的相似词检索。原创 2025-07-19 09:12:23 · 840 阅读 · 0 评论 -
Python----NLP自然语言处理(词向量与词嵌入)
本文介绍了词向量与词嵌入的基本概念及其应用。词向量是将词语映射为固定维度数字向量,使计算机能处理文本数据。传统one-hot编码存在维度灾难和无法度量相似性问题,Word2Vec通过分布式表示解决了这些问题,能捕捉词语间的语义关系。文章详细讲解了Word2Vec的两种模型(CBOW和Skip-gram)及其训练流程,包括负采样优化技术。最后以《三国演义》文本为例,展示了词向量训练、相似度计算和类比推理等实际应用。Word2Vec虽存在上下文无关等局限性,但仍是自然语言处理的重要基础技术。原创 2025-07-17 08:53:08 · 875 阅读 · 0 评论 -
Python----NLP自然语言处理(英文分词器--NLTK)
NLTK是Python中处理英文文本的重要工具包,主要功能包括分词、词形还原、词性标注和停用词过滤等。它通过word_tokenize进行分词,使用WordNetLemmatizer实现词形还原(如将"better"还原为"good"),并支持词性标注(如识别名词、动词)。Text对象提供词频统计、上下文搜索等文本分析功能。此外,NLTK可以过滤常见停用词(如"the","is"),并通过正则表达式实现词组分块(如识别名词短语)原创 2025-07-16 09:03:05 · 559 阅读 · 0 评论 -
Python----NLP自然语言处理(中文分词器--jieba分词器)
本文系统介绍了中文文本预处理的核心步骤,重点讲解了jieba分词工具的功能与应用。主要内容包括:分词处理:对比全模式(高速但冗余)和精确模式(高精度)的分词效果,演示基础分词操作;词典优化:通过添加自定义词典解决专有名词(如"百战程序员")的分词歧义问题;关键词提取:基于TF-IDF算法实现文本关键词抽取(如《三国演义》选段中的"玄德"、"张角"等),支持停用词过滤优化结果;词性标注:结合posseg模块实现词语分类(如名词、动词等),提供完整的词性标签对照表。文中通过代码实例展示了jie原创 2025-07-14 09:20:56 · 844 阅读 · 0 评论 -
Python----NLP自然语言处理(NLP自然语言处理解释,NLP的发展历程)
自然语言处理(NLP)是人工智能的重要分支,旨在让计算机理解、生成和处理人类语言。其发展经历了四个阶段:1950-1980年代的规则驱动阶段依赖语言学家手工编写规则;1990年代进入统计学习阶段,利用概率模型处理语言;2013年后深度学习兴起,采用神经网络自动学习语言特征;2018年至今进入预训练模型时代,BERT、GPT等大型语言模型展现出强大能力。NLP广泛应用于机器翻译、文本分析、语音识别、智能对话等领域,但也面临计算成本高、可解释性差等挑战。原创 2025-07-14 09:17:36 · 1019 阅读 · 0 评论