目录
美国人工智能研究公司OpenAI异军突起:
● 2020年4月发布神经网络Jukebox;
● 2020年5月发布GPT-3,模型参数量为1750亿;
● 2020年6月开放人工智能应用程序接口;
● 2021年1月发布连接文本和图像神经网络CLIP;
● 2021年1月发布从文本创建图像神经网络DALL-E;
● 2022年11月,正式推出对话交互式的ChatGPT。相比GPT-3,ChatGPT引入了基于人类反馈的强化学习(RLHF)技术以及奖励机制。
ChatGPT证明了通过一个具有高水平结构复杂性和大量参数的大模型(foundation model,又称为“基础模型”)可以实现深度学习。
人们形成关于大模型的基本共识:大模型是大语言模型(LLM),也是多模态模型,或者是生成式预训练转换模型。GPT是大模型的一种形态,引发了人工智能生成内容(AIGC)技术的质变。大模型是人工智能赖以生存和发展的基础。现在,与其说人类开始进入人工智能时代,不如说人类进入的是大模型时代。
什么是大模型
人工智能的模型,与通常的模型一样,是以数学和统计学为算法基础的,可以用来描述一个系统或者一个数据集。在机器学习中,模型是核心概念。模型通常是一个函数或者一组函数,可以是线性函数、非线性函数、决策树、神经网络等各种形式。模型的本质就是对这个函数映射的描述和抽象,通过对模型进行训练和优化,可以得到更加准确和有效的函数映射。建立模型的目的是希望从数据中找出一些规律和模式,并用这些规律和模式预测未来的结果。模型的复杂度可以理解为模型所包含的参数数量和复杂度,复杂度越高,模型越容易过拟合。
人工智能大模型的“大”,是指模型参数至少达到1亿。但是这个标准一直在提高,目前很可能已经有了万亿参数以上的模型。GPT-3的参数规模就已经达到了1750亿。
大模型可以定义为大语言模型,具有大规模参数和复杂网络结构的语言模型。与传统语言模型(如生成性模型、分析性模型、辨识性模型)不同,大语言模型通过在大规模语料库上进行训练来学习语言的统计规律,在训练时通常通过大量的文本数据进行自监督学习,从而能够自动学习语法、句法、语义等多层次的语言规律。
近几年,比较有影响力的AI大模型主要来自谷歌(LaMDA、BERT和PaLM-E)、Meta(LLaMA)和OpenAI(GPT)。在中国,AI大模型的主要代表是百度的文心一言、阿里的通义千问和华为的盘古。
这些模型的共同特征是:需要在大规模数据集