大模型综述

《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》论文阅读

模型架构

两种架构:

  • encoder-decoder架构/encoder架构:T5/BERT
  • decoder架构:GPT4 在这里插入图片描述
特点 LLMs
encoder-decoder
or
encoder-only
BERT-style 训练:掩码语言模型
类型:判别式
预训练任务:预测掩码词 ELMo, BERT,RoBERTa,
DistilBERT,BioBERT,XLM,
Xlnet,ALBERT,ELECTRA,
T5,GLM,XLM-E,ST-MoE,AlexaTM
decoder-only
GPT-style 训练:自回归语言模型
类型:生成式
预训练任务:预测下一个词 GPT-3, OPT,PaLM,
BLOOM, MT-NLG,
GLaM,Gopher, chinchilla,
LaMDA, GPT-J, LLaMA,
GPT-4, BloombergGPT

BERT-style判别式模型:考虑周围语境的同时预测句子中的掩码词,让模型更加深入地理解单词与上下文之间的关系。eg:BERT、RoBERTa和T5。

GPT-style生成式模型:通过给定的前一个词的序列预测下一个词。 eg:GPT-3、OPT、PaLM和BLOOM

实用数据指南

数据对模型有效性的影响始于预训练阶段,并持续到训练和推理阶段。

备注

  1. 在面对分布外数据的下游任务中,LLM比微调模型具有更好的泛化能力,例如对抗性示例和域转换。
  2. 当处理有限的带注释数据时,LLM比微调模型更可取,当有大量带注释数据可用时,两者都是合理的选择,具体取决于特定的任务要求。
  3. 建议选择在与下游任务类似的数
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值