NLP基础算法总结

本文介绍了自然语言处理(NLP)的基础算法,涵盖了词法分析(如分词)、句法分析(尤其是依存句法分析)和语义分析(包括词义消歧和表示学习)。提到了jieba和hanlp等工具在分词中的应用,以及句法分析中如依存分析的各种方法和性能评价指标。同时,讨论了词义消歧的不同方法,如基于词典、有监督和无监督方法,并简述了语义表示的发展,如one-hot和词嵌入。最后,概述了文档分析的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

NLP(Natural Language Processing) 简称:自然语言处理
以下为自然语言处理用到的基础算法,包括词法分析、句法分析、语义分析、文档分析

一、词法分析

词法分析包括分词、词性标注、实体识别、拼写检查等。

1、分词

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。
这里只写中文的分词方法。
jieba分词:常用轻量级的分词方法工具(可以实现分词、词性标注、关键词提取等)
项目地址:github:https://github.com/fxsjy/jieba
简单示例:

import jieba
import jieba.posseg as pseg
import jieba.
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

平原2018

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值