1 介绍一个简单的案例
- 淘宝处理好评还是差评
1.1 主要思想
-
在此之前,我们已经在
时间序列学习(1)
的学习中,掌握了用GloVe来把单词转换成一个100d的词向量。 -
那么: I hate this boring movie. 就可以转化为 [5, 100] 的词向量。
-
对于每个100d的向量(也就是每一个单词), 作为x输入,传入到一个线性层中。 同理,5个词向量都传入 5个线性层,每个线性层的输出是 [2]\
-
那么5个线性层的合并输出就是 [5, 2], 最后经过一个线性层,输出[1], 表示这个句子是好评 还是差评。
1.2 模型缺点
- 实际生活中,会存在很大的一段影评,这种长句子的处理非常困难。 [w, b]太大了。
- 忽略了上下文的语义信息。 —— 需要一个consistent tensor
1.3 提出需求
- 首先是权值共享, 把线性层的参数统一,从
w
1
,
w
2
,
w
3
w_1, w_2, w_3
w1,w2,w3 等等 变成统一的
w
、
b
w、b
w、b
- 需要一个
consistent memory
,需要能够贯穿整个单元。
- 求解梯度,这个部分比较复杂,我跳过了