Facilitating Pornographic Text Detection for Open Domain Dialogue Systems via Knowledge Distillation

本文介绍了CENSORCHAT数据集,用于检测开放域对话中的色情内容。通过大型语言模型的知识蒸馏注释数据,并用ChatGPT和GPT-4进行标签校准,创建可靠的文本分类器。此方法经济高效,增强了检测器的准确性和可靠性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Facilitating Pornographic Text Detection for Open-Domain Dialogue Systems via Knowledge Distillation of Large Language Models》的翻译。

通过大语言模型的知识蒸馏促进开放域对话系统的色情文本检测

摘要

在开放域对话系统中,人机交互对话中出现的色情内容会给用户带来严重的副作用。然而,在人机交互对话中检测色情语言是一个研究较少的重要课题。为了朝着这个方向前进,我们引入了CENSORCHAT,这是一个对话监测数据集,旨在检测对话会话是否包含色情内容。为此,我们收集了野外真实的人机交互对话,并将其分解为单句话和单回合对话,最后一句话由聊天机器人说出。我们建议利用大型语言模型的知识蒸馏来注释数据集。具体来说,首先,原始数据集由四个开源大型语言模型进行注释,多数票决定标签。其次,我们使用ChatGPT来更新第一步中的空标签。第三,为了确保验证和测试集的质量,我们使用GPT-4进行标签校准。如果当前标签与GPT-4生成的标签不匹配,我们将使用自我批评策略来验证其正确性。最后,为了便于检测色情文本,我们使用伪标记数据集开发了一系列文本分类器。详细的数据分析表明,将知识蒸馏技术与大型语言模型相结合,为开发色情文本检测器提供了一种实用且经济高效的方法。

1 引言

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值