深度学习与文本分类项目解析

啊啦啦啦啦啦5544

于 2020-09-16 19:46:18 发布

阅读量415

点赞数

CC 4.0 BY-SA版权

分类专栏：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43991660/article/details/108628740

笔记专栏收录该内容

20 篇文章

订阅专栏

一、背景简介

本文为阅读项目记录，项目地址为：https://github.com/kk7nc/Text_Classification

目的：

了解文本分类的实现方法
传统机器学习是如何实现文本分类的？
深度学习有哪些算法支持文本分类？
文本特征如何提取？

二、特征提取方法

该项目使用两种方法提取文本特征：

方法一：TF-IDF
方法二：字典向量化+glove序列

三、模型组合

使用TF-IDF提取文本特征，使用传统机器学习算法，如KNN，XGBoost等。深度学习特征提取方面使用字典法，把文本转换为数值，同时使用了Glove序列。

涉及组合模式如下：

TF-IDF + 传统机器学习算法
字典+glove+深度学习（CNN，RCNN，RNN）
TF-IDF + DNN

四、补充

1、glove

glove 下载得到的数据内容为：每个词汇对应一串数据，长度有50/100/200/300，根据所选文件决定
GloVe file which could be download here

2、embedding

使用weight参数把字典法和glove组合起来

Embedding(len(word_index),
		  weights=[glove_matrix],
		  input_length=500,
		  trainable=True)

3、字典法

keras tokenizer可以实现文本到数字向量的转换，pad_sequence实现首位填充功能，填充值为0。

五、问题待处理

深度学习文本分类的文本向量化方法有哪些？应该如何使用？（例如word2vec、one-hot、…）
文本分类方面，可以使用哪些具体的深度学习算法，优缺点是什么？

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。