本文是LLM系列文章,针对《Facilitating Pornographic Text Detection for Open-Domain Dialogue Systems via Knowledge Distillation of Large Language Models》的翻译。
摘要
在开放域对话系统中,人机交互对话中出现的色情内容会给用户带来严重的副作用。然而,在人机交互对话中检测色情语言是一个研究较少的重要课题。为了朝着这个方向前进,我们引入了CENSORCHAT,这是一个对话监测数据集,旨在检测对话会话是否包含色情内容。为此,我们收集了野外真实的人机交互对话,并将其分解为单句话和单回合对话,最后一句话由聊天机器人说出。我们建议利用大型语言模型的知识蒸馏来注释数据集。具体来说,首先,原始数据集由四个开源大型语言模型进行注释,多数票决定标签。其次,我们使用ChatGPT来更新第一步中的空标签。第三,为了确保验证和测试集的质量,我们使用GPT-4进行标签校准。如果当前标签与GPT-4生成的标签不匹配,我们将使用自我批评策略来验证其正确性。最后,为了便于检测色情文本,我们使用伪标记数据集开发了一系列文本分类器。详细的数据分析表明,将知识蒸馏技术与大型语言模型相结合,为开发色情文本检测器提供了一种实用且经济高效的方法。