《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》论文阅读
模型架构
两种架构:
- encoder-decoder架构/encoder架构:T5/BERT
- decoder架构:GPT4
特点 | LLMs | |
---|---|---|
encoder-decoder | ||
or | ||
encoder-only | ||
BERT-style | 训练:掩码语言模型 | |
类型:判别式 | ||
预训练任务:预测掩码词 | ELMo, BERT,RoBERTa, | |
DistilBERT,BioBERT,XLM, | ||
Xlnet,ALBERT,ELECTRA, | ||
T5,GLM,XLM-E,ST-MoE,AlexaTM | ||
decoder-only | ||
GPT-style | 训练:自回归语言模型 | |
类型:生成式 | ||
预训练任务:预测下一个词 | GPT-3, OPT,PaLM, | |
BLOOM, MT-NLG, | ||
GLaM,Gopher, chinchilla, | ||
LaMDA, GPT-J, LLaMA, | ||
GPT-4, BloombergGPT |
BERT-style判别式模型:考虑周围语境的同时预测句子中的掩码词,让模型更加深入地理解单词与上下文之间的关系。eg:BERT、RoBERTa和T5。
GPT-style生成式模型:通过给定的前一个词的序列预测下一个词。 eg:GPT-3、OPT、PaLM和BLOOM
实用数据指南
数据对模型有效性的影响始于预训练阶段,并持续到训练和推理阶段。
备注
- 在面对分布外数据的下游任务中,LLM比微调模型具有更好的泛化能力,例如对抗性示例和域转换。
- 当处理有限的带注释数据时,LLM比微调模型更可取,当有大量带注释数据可用时,两者都是合理的选择,具体取决于特定的任务要求。
- 建议选择在与下游任务类似的数