Datawhale AI冬令营(第一期)--- 1.1 零基础定制你的专属大模型

简述

主要学习了使用讯飞开放平台免费定制了一个基于《甄嬛传》剧本中的甄嬛台词 ,通过五个简单的步骤,不写一行代码,打造一个模仿甄嬛语气、风格的专属聊天模型—— Chat-嬛嬛 。

关于数据集的知识

微调的数据集是定制大模型的关键
影响模型最后效果的最大难点问题在于复杂的 清洗数据、处理、生成数据、归类数据 上

本次使用的数据集格式 — Alpaca格式
  1. 字段说明 :
    (1) instruction:任务的指令,模型需要完成的具体操作,一般可以对应到用户输入的 Prompt 。
    (2)input:任务所需的输入内容。若任务是开放式的,或者不需要明确输入,可以为空字符串。
    (3)output:在给定指令和输入的情况下,模型需要生成的期望输出,也就是对应的正确结果或参考答案。

  2. 样例数据:

{
    "instruction": "小姐,别的秀女都在求中选,唯有咱们小姐想被撂牌子,菩萨一定记得真真儿的——",
    "input": "",
    "output": "嘘——都说许愿说破是不灵的。"
}
  1. 特点与应用 :结构简单清晰,易于理解和处理。它明确地将任务指令和输入内容分离开来,能够很好地适用于各种自然语言处理任务,像文本生成、翻译、总结等任务,尤其适合单轮的、以任务为导向的指令微调任务。

注意:还有其他的数据格式,比如:ShareGPT 、jsonl、csv、文生图数据和图像分类数据等格式

详细说明可见大模型微调平台数据集格式说明

定制大模型(AI嬛嬛)

步骤:

Step1:注册登录讯飞星辰MaaS

登录讯飞开放平台|520
登录后的页面:
登录讯飞平台后的页面

Step2:下载数据集

数据集下载链接

Step3:定制专属嬛嬛大模型!

步骤:

  1. 点击左上角的创建模型
    创建模型1
  2. 配置基础信息
    配置基础信息
  3. 导入数据集
    3.1 点击创建数据集
    点击创建数据集
    3.2 给数据集取名并选择数据格式
    数据集取名并选择数据格式
    3.3 导入数据集后点击确定

下载的数据集为zip格式,记得解压缩后才可以使用

导入数据并确定

  1. 提交任务
    提交
  2. 创建成功,等待排队
    创建成功
  3. 运行成功
    运行成功

Step4:体验AI嬛嬛!

  1. 发布为服务(需要等待一小段时间)
    发布服务
  2. 发布成功后点击体验即可体验模型
    体验模型
  3. 体验和对比模型

3.1 选择自己的服务和想要对比的服务进行对比体验,也可以不选择要对比的服务,进行单独对话体验
体验和对比模型
3.2 对话对比结果
对比对话
做到这里就已经获得了自己的AI嬛嬛

总结

通过这次学习,感觉案例还是比较有意思的,比较吸引兴趣,也学到了关于AI的相关知识,学会了通过简单的步骤就可以创建一个属于自己的AI聊天模型。收获颇丰。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值