本文是LLM系列文章,针对《A Survey on Recent Advances in Conversational Data Generation》的翻译。
对话数据生成最新进展调查
摘要
对话系统的最新进展显著增强了各个领域的人机交互。 然而,由于缺乏专门的对话数据,训练这些系统具有挑战性。传统上,对话数据集是通过众包创建的,但事实证明这种方法成本高昂、规模有限且劳动密集型。作为一种解决方案,合成对话数据的开发已经出现,它利用技术来增强现有数据集或将文本资源转换为对话格式,从而提供一种更高效和可扩展的数据集创建方法。在这项调查中,我们对多轮对话数据生成进行了系统而全面的回顾,重点关注三种类型的对话系统:开放域、任务导向和信息寻求。我们根据种子数据创建、话语生成和质量过滤方法等关键组成部分对现有研究进行分类,并引入了一个概述对话数据生成系统主要原则的一般框架。此外,我们还研究了评估合成对话数据的评估指标和方法,解决了该领域的当前挑战,并探索了未来研究的潜在方向。我们的目标是通过概述最先进的方法并强调在该领域进一步研究的机会,加快研究人员和从业者的进步。