大模型综述

Aweii__

于 2024-08-13 12:00:00 发布

阅读量1.3k

点赞数 51

CC 4.0 BY-SA版权

文章标签：人工智能语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Aweii__/article/details/141126872

《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》论文阅读

模型架构

两种架构：

encoder-decoder架构/encoder架构:T5/BERT
decoder架构:GPT4

	特点	LLMs
encoder-decoder
or
encoder-only
BERT-style	训练:掩码语言模型
类型：判别式
预训练任务：预测掩码词	ELMo, BERT,RoBERTa,
DistilBERT,BioBERT,XLM,
Xlnet,ALBERT,ELECTRA,
T5,GLM,XLM-E,ST-MoE,AlexaTM

decoder-only
GPT-style	训练：自回归语言模型
类型：生成式
预训练任务：预测下一个词	GPT-3, OPT,PaLM,
BLOOM, MT-NLG,
GLaM,Gopher, chinchilla,
LaMDA, GPT-J, LLaMA,
GPT-4, BloombergGPT

BERT-style判别式模型：考虑周围语境的同时预测句子中的掩码词，让模型更加深入地理解单词与上下文之间的关系。eg:BERT、RoBERTa和T5。

GPT-style生成式模型:通过给定的前一个词的序列预测下一个词。 eg:GPT-3、OPT、PaLM和BLOOM

实用数据指南

数据对模型有效性的影响始于预训练阶段，并持续到训练和推理阶段。

备注

在面对分布外数据的下游任务中，LLM比微调模型具有更好的泛化能力，例如对抗性示例和域转换。
当处理有限的带注释数据时，LLM比微调模型更可取，当有大量带注释数据可用时，两者都是合理的选择，具体取决于特定的任务要求。
建议选择在与下游任务类似的数

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。