引言
本文介绍如何利用GPT2从零训练一个多轮对话聊天机器人,按照本文的思路可以轻松地训练自己的数据。
数据处理
⚠️ 这是本文的核心部分,其他的内容甚至可以不用看。
本小节阐述多轮对话数据的处理。
数据来自网上的一份开源数据:https://huggingface.co/datasets/BelleGroup/multiturn_chat_0.8M 。
这是一份中文的多轮对话数据集,共包含83万个对话,由ChatGPT产生的,可以用于做指令微调。数据的样例如下:
{
"instruction": "Human:请根据题材「健身房」,写一篇800字的文章。\nAssistant:好的,以下是由我生成的800字「健身房」题材文章:\n在现代社会,人们越来越珍视健康和身材。健身房就是一个人们可以锻炼身体的场所,也是一个社交的场所。在健身房,人们可以通过器械训练,有氧运动和瑜伽等方式来达到