本文是LLM系列文章,针对《D2LLM: Decomposed and Distilled Large Language Models for Semantic Search》的翻译。
摘要
语义搜索的关键挑战是创建准确且高效的模型来精确定位查询的相关句子。虽然 BERT 风格的双编码器通过预先计算的嵌入在效率方面表现出色,但它们经常会错过搜索任务中的细微差别。相反,采用交叉编码器设计的 GPT 式 LLM 可以捕获这些细微差别,但计算量较大,阻碍了实时应用。在本文中,我们提出了 D2LLM(用于语义搜索的分解和蒸馏 LLM),它结合了两个领域的优点。我们将交叉编码器分解为与多头注意力池和交互仿真模块集成的高效双编码器,实现了细致入微的理解和预可计算性。使用对比、排名和特征模仿技术将LLM的知识蒸馏到该模型中。我们的实验表明,D2LLM 在三项任务的所有指标方面均超过了五个领先基线,特别是 NLI 任务性能提高了至少 6.45%。源代码可在 https://github.com/codefuse-ai/D2LLM 上获取。