到目前为止,与电力和内燃机相比,人工智能的成就令人印象深刻,但并不具有革命意义。如今,大模型的成就让AI看起来比过去更像「通用技术」。但也别忘了作为「通用技术」之一的电动机在19世纪80年代就出现了,但直到20世纪20年代,围绕这项技术重组的大规模生产装配线才真正变革了工厂生产率。
撰文
微胖
「问:你觉得中美贸易战是否会在年解决?答:我相信最有可能的结果就是,我们会见到一个更为竞争的世界,而且中国会是重要的参与者。与此同时,我们会见到更平衡的美中关系,在贸易政策等议题上尤其如此。问:你认为川普会连任吗?答:我想他不会连任。我认为他会在选举中失利。」这是一段发生在年的采访。提问方是大名鼎鼎的《经济学人》,你能猜到接受采访的是谁吗?GPT-2!一个利用40GB互联网文本训练的无监督语言模型:只要给它提示,例如问题或故事的第一句话,它就会顺着提示往下接。当然,不止这些。从写诗作赋、搜索答题、写代码甚至预测蛋白质三维折叠结构,GPT-2和它代表的大模型(foundationmodel)正展示出早期AI模型所不具备的通用性、适应性。据说,一只狗(其实也包括笔者)看不懂的《纽约客》笑话,PaLM也能读懂笑点。这种经过数十亿次猜测、比较、改进、猜测循环「涌现」出的能力,与人类理解力和创造力更加靠近,甚至让设计者惊讶。这预示着一场革命的到来,《经济学人》称,这场革命将会影响到当年工业革命未曾触及的高级脑力劳动。
OpenBMB(OpenLabforBigModelBase)开源社区BMList大模型趋势图跟踪了大模型的演化趋势。目前规模最大、拥有参数最多的大模型是阿里的预训练模型M6-10T,发布时间年10月,拥有十万亿参数。OpenBMB是北京面壁智能科技有限责任公司创始团队联合清华大学自然语言处理实验室与智源研究院语言大模型技术创新中心发起的开源社区。
01AI工业革命目前,超过80%的人工智能研究现在都集中在大模型上——包括微软、Meta、Google、特斯拉等公司,研究机构艾伦人工智能研究所负责人OrenEtzioni曾估计。初创公司也在涌入。根据数据提供商PitchBook数据,年美国风险投资家向人工智能公司投资了创纪录的亿美元。其中,解决关键基础设施的挑战正成为一个越来越吸引人的领域。北京智源人工智能研究院发起的超大规模预训练模型研究项目「悟道」表明,中国正在将该领域作为国家重点。一批新的创业者——拥有顶尖名校专业背景的预训练模型团队入场了。虽被寄予厚望,但到目前为止,与人工智能相关的生产率提高却不尽如人意——至少,与电力和内燃机相比,人工智能的成就令人印象深刻,但并不具有革命意义。「扩展起来很不方便。这不太符合计算机的思维。」北京面壁智能科技有限责任公司(以下简称「面壁智能」)联合创始人、CTO曾国洋仍记得高中实习时的经历。六年前,曾国洋在高中期间被保送清华后,他决定去一家当红AI公司实习。8岁就开始自学编程的他一直对人工智能技术抱有浓厚兴趣。「AI领域当时非常活跃也很有前景,所以想去看看技术的最新发展。」他说道。结果发现技术落地现状并不令人满意。「每做一个项目、每一个具体场景,基本上都要派一位非常有水平的AI工程师去做适配,成本支出太大了。」就一项AI任务而言,首先需要懂算法的工程师设计模型,再根据业务数据训练模型。就数据量而言,至少需要几千条,有时候可能需要额外再多标注一些以达到更好的模型效果。训练过程运行在服务器上,期间需要调校各种各样的模型参数。训练完毕后,使用事先划分好的验证集,根据一定标准择选出最好的模型拿去做推理,对外提供服务。以数据生产环节为例。《财经》记者曾算过一笔账,一个常见NLP模型,训练数据样本量在5万-10万/标签,稍微复杂一些的模型,训练数据样本量要20万个。「如果样本数据需要购买,整个数据成本要占到项目总成本的接近60%。从项目开发时间来看,数据采集、清洗、标注、增强等处理时间占到整个开发周期80%。」
这还不算如此高的数据成本并不能让模型具有通用性所付出的代价。比如,修改模型的工程量和成本不亚于开发新模型。今年,美国劳工统计局发布的二季度报告表明,先进数字技术并没有提升生产力——自疫情爆发以来,美国生产率(每小时生产产品和服务的价值)的增长率仅约为1%,远低于年至年期间的增幅,当时生产率增长率超过3%,也逊于美国战后年到年的年均3.8%的增长率。但是,年,拥有1.1亿个参数的BERT大模型的出现正在改变游戏规则。当时,谷歌研究人员抛弃预先标记的数据集,使用自监督学习技术训练模型,效果惊人。年,Open-AI发布GPT-3。它的前身GPT-2在一年前发布,「吞噬」掉40GB数据,有15亿个参数。GPT-3参数暴增至亿个。如今,全球最大预训练模型拥有超过十万亿个参数。没有人知道极限在哪里。就在人们一度认为向模型添加参数正在达到边际效益递减的点时,却惊讶发现,通过向这些模型提供更多数据并增加参数数量来使此类模型变得更大时,它们会变得越来越好。
从早年的word2vec到如今标准意义上的大模型GPT-3、PaLM等,它们从小到大的过程并非基因突变式发展,而是渐变式,也得益于GPU硬件性能的日新月异。
曾国洋在大二时就加入了清华大学计算机系自然语言处理实验室,正好亲历这一变革。除了令人惊异的性能,这种通过单一模型解决不同任务的能力让他看到了一种可能性——改变人工智能作为一项业务的运作方式,大幅降低AI模型的扩展成本。因此,曾国洋毕业之后就和实验室几位同学一起创立面壁智能,旨在将大模型普及化与产业化。「预训练-微调」新范式让AI研发有了很大变化。曾国洋以文本模型为例,互联网文本非常多,我们可以非常容易地搜集大规模无标注语料,利用诸如新闻、小说等通用文本,采用自监督学习技术预训练语言模型,大模型也由此获得比较强的通用能力。然后,再利用特定下游任务对应的训练数据进一步微调更新模型参数,让该模型掌握完成下游任务的能力。大量研究结果证明,预训练语言模型能够在自然语言处理等领域的广大下游任务上取得巨大的性能提升。「数据成本很明显地降低了。过去,几千条数据是门槛。现在,几百条、甚至几十条业务数据就可能实现同样性能效果。」他说。还有人效,即使团队缺乏NLP背景算法工程师也不需要因新业务招人,大模型可以输出通用的NLP能力。「根据用例的不同,大模型将数据标签要求降低了10到倍。」IBM研究员、IBMAI首席技术官DakshiAgrawal在接受外媒采访时曾谈道,「从本质上说,这是企业十年来的机遇。」02面壁与破壁欣喜之余,现实也残酷。上世纪90年代,经济史学家们开始将「通用技术(general-purposetechnologies)」视为推动长期生产率增长的关键因素,比如印刷机、蒸汽机、电动机。这些「通用技术」的关键属性包括核心技术的快速改进、广泛适用于跨领域,以及溢出效应——刺激相关产品、服务和商业实践的新创新。如今,大模型的成就让AI看起来比过去更像「通用技术」。但也别忘了,作为「通用技术」之一的电动机在19世纪80年代就出现了,但直到20世纪20年代,围绕这项技术重组的大规模生产装配线才真正变革了工厂生产率。始于20世纪80年代的个人电脑革命,直到90年代末才开始真正提升生产力,因为这些机器变得更便宜、更强大,还能连接到互联网。百亿大模型,仅参数量就在20G左右,将这些参数读进来,普通计算机都要花2分钟,曾国洋举了个例子。无论是训练还是推理,至少需要使用V这样的显卡,每块价格大约5万元,几十块显卡的用量意味着上百万的成本。目前,大模型也都是由屈指可数的几家科技巨头开发——微软、Meta、Google、百度、阿里、华为等,包括特斯拉也在构建一个巨大模型来进一步实现其自动驾驶汽车的目标。他们还将基础设施牢牢掌控在自家手中,GPT-3不会公开发布,只对少数人提供API访问权限。GPT-2数据集也没有公开发布。「仔细审视大模型技术与落地方案时,大家看到了挡在面前的层层『墙壁』。」面壁智能在公司