文章主要内容
本文提出利用大型语言模型(LLMs)进行科学新颖性检测(ND),并构建了营销和NLP领域的两个新数据集。通过基于LLM的知识蒸馏框架训练轻量级检索器,使其从LLMs中提取概念级知识,实现相似概念的对齐,从而高效准确地进行想法检索和新颖性检测。实验表明,该方法在基准数据集上的表现优于其他方法。
文章创新点
- 构建专用基准数据集:提出基于论文关系提取闭包集,并利用LLMs总结核心思想,确保数据集的封闭性和紧凑性。
- LLM知识蒸馏框架:通过生成合成的非新颖想法(改写、部分、增量想法),将LLMs的概念级知识蒸馏到轻量级检索器中,弥补文本相似性与概念理解之间的差距。
- RAG-based新颖性检测策略:结合检索器和LLMs进行交叉验证,通过结构化提示引导LLM生成新颖性分数,并利用决策树分类器进行最终判断。
Abstract
在科