
nlp
doulinxi115413
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
jieba中文处理
jieba中文处理by 寒小阳([email protected])和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。1.基本分词函数与用法jieba.cut 以及...原创 2018-05-21 21:02:34 · 647 阅读 · 0 评论 -
基于 Gensim 的 Word2Vec 实践
Word2Vec基于 Gensim 的 Word2Vec 实践,从属于笔者的程序猿的数据科学与机器学习实战手册,代码参考gensim.ipynb。推荐前置阅读Python语法速览与机器学习开发环境搭建,Scikit-Learn 备忘录。Word2Vec TutorialGetting Started with Word2Vec and GloVe in Python模型创建Gensim中 Word...转载 2018-06-23 21:06:50 · 925 阅读 · 0 评论 -
中文分词技术及应用
中文分词技术及应用中文分词算法有5大类:1、 基于词典的方法2、基于统计的方法3、基于规则的方法4、基于字标注的方法5、基于人工智能的技术(基于理解)的方法中文分词目前有4个瓶颈:1、 分词歧义2、未登陆词识别3、分词粒度问题4、错别字与谐音字规范化中文分词有5大评价标准:1、分词正确率2、切分速度3、功能完备性4、易扩展性与可维护性中文信息处理包括3个层...转载 2018-12-08 17:52:00 · 3936 阅读 · 0 评论 -
BILSTM+CRF中文命名实体识别
https://www.jianshu.com/p/09af2dc2b65dhttps://blog.csdn.net/ARPOSPF/article/details/81106212https://github.com/Determined22/zh-NER-TF转载 2019-03-19 13:36:56 · 2021 阅读 · 0 评论