深度学习模型——DSSM（Deep Structured Semantic Model）详解

goTsHgo

于 2024-12-05 10:47:37 发布

阅读量1.3k

点赞数 12

分类专栏：人工智能文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/goTsHgo/article/details/144258377

版权

人工智能专栏收录该内容

28 篇文章

订阅专栏

DSSM（深度结构化语义模型）是一种深度学习模型，旨在学习查询和文档（或任意两个实体）之间的语义匹配关系。它最初由微软提出，广泛应用于信息检索、推荐系统和自然语言处理等领域。

以下是对 DSSM 的详细解释，包括底层原理和源代码实现。

1. DSSM 的核心思想

1.1 为什么需要 DSSM？

传统的基于关键词匹配的方法（如 TF-IDF、BM25）难以捕捉查询和文档之间的语义关系。例如：

查询：“苹果公司” 与文档：“Apple Inc.” 语义相同，但关键词不同。
需要学习查询和文档的语义表示，并计算其语义相似度。

1.2 DSSM 的目标

将查询和文档分别映射到一个共同的语义空间，在这个空间中，语义相似的查询和文档具有较高的向量相似度（如余弦相似度）。

2. DSSM 的模型结构

DSSM 的架构可以分为以下几个步骤：

2.1 输入层

输入是查询（Query）和文档（Document）。
通常是文本，需先转化为稀疏特征（如词袋模型）。

2.2 特征表示层

通过Embedding 或全连接层，将高维稀疏输入映射到低维稠密表示。
捕捉语义信息，生成低维特征向量。

2.3 非线性变换层

深层神经网络对特征向量进行非线性变换，进一步抽象语义特征。

2.4 匹配层

通过余弦相似度计算查询和文档的匹配分数。

2.5 损失函数

使用对比学习（Contrastive Learning），优化正样本相似度高、负样本相似度低的目标。

3. 模型的底层原理

3.1 特征表示

DSSM 的输入通常是文本，可以表示为稀疏向量。假设：

查询文本为 q=[x1,x2,...,xn]，每个 xi 是一个词或字符。
文档文本为 d=[y1,y2,...,ym]。

将 q 和 d 转化为词袋模型表示的稀疏向量。

3.2 深层表示

通过一个深层网络，将稀疏向量映射到低维稠密空间：

$h_{q}=f_{q}(W_{q}*q+b_{q}),h_{d} = f_{d}(W_{d} * d+b_{d})$

其中：

$h_{q} , h_{d}$ 是查询和文档的语义表示。
$W_{q} , W_{d}$ 是权重矩阵。
$f_{q} , f_{d}$ 是激活函数（如 ReLU）。

3.3 匹配分数

使用余弦相似度计算查询和文档的匹配分数：

$s(q,d) = \frac{h_{q} * h_{d}}{ \left \| h_{q} \right \| * \left \| h_{d} \right \|}$

3.4 损失函数

常用 对比损失（Contrastive Loss） 优化模型：

$d^{+}$ ：正样本（相关文档）。
$d^{-}$ ：负样本（无关文档）。

4. DSSM 的实现步骤（代码实现）

以下是一个完整的 DSSM 实现，用于匹配查询和文档。

4.1 数据准备

模拟查询和文档的稀疏输入。

import numpy as np

# 示例查询和文档稀疏表示（词袋模型）
query_vectors = np.array([
    [1, 0, 0, 0, 1],  # 查询1
    [0, 1, 1, 0, 0],  # 查询2
])
document_vectors = np.array([
    [1, 0, 1, 0, 0],  # 文档1
    [0, 1, 0, 1, 0],  # 文档2
])

# 标签：1表示相关，0表示无关
labels = np.array([1, 0])

4.2 构建 DSSM 模型

使用深度学习框架（如 TensorFlow/Keras）实现 DSSM。

import tensorflow as tf
from tensorflow.keras.layers import Input, Dense
from tensorflow.keras.models import Model
from tensorflow.keras.losses import BinaryCrossentropy
from tensorflow.keras.optimizers import Adam

# 定义输入层
query_input = Input(shape=(5,), name="query_input")  # 查询稀疏向量
doc_input = Input(shape=(5,), name="doc_input")     # 文档稀疏向量

# 定义共享网络
shared_dense = Dense(64, activation="relu", name="shared_dense")

# 查询和文档分别通过共享网络
query_embedding = shared_dense(query_input)
doc_embedding = shared_dense(doc_input)

# 计算余弦相似度
cosine_similarity = tf.keras.layers.Dot(axes=-1, normalize=True, name="cosine_similarity")(
    [query_embedding, doc_embedding]
)

# 构建模型
model = Model(inputs=[query_input, doc_input], outputs=cosine_similarity)
model.compile(optimizer=Adam(learning_rate=0.01), loss=BinaryCrossentropy(), metrics=["accuracy"])

# 打印模型结构
model.summary()

4.3 模型训练

用查询-文档对的数据训练 DSSM 模型。

# 模型训练
model.fit(
    [query_vectors, document_vectors],  # 输入
    labels,                             # 标签
    epochs=10,
    batch_size=2
)

4.4 召回与匹配

利用训练好的 DSSM 模型计算查询与多个文档的匹配分数。

# 查询1与所有文档的相似度
query_test = np.array([[1, 0, 0, 0, 1]])  # 测试查询
doc_candidates = np.array([
    [1, 0, 1, 0, 0],  # 文档1
    [0, 1, 0, 1, 0],  # 文档2
])

# 计算相似度
scores = model.predict([query_test, doc_candidates])
print("查询与文档的匹配分数：", scores)