我这几年一直在观察大模型的发展,看它从边缘到主流,从别人认为这不是一条可以成功的路,到今天如此之成功,这个过程我有八个观察。
第一,大模型取得突破的核心是Scaling Law。
2017年问世的Transformer架构,是大模型取得突破的技术基础,以此为代表的一系列技术创新,奠定了人工智能“算力+数据+算法”结合的发展路线,引领人工智能从1.0时代,跨入了 2.0时代。未来我们还将见证,人工智能将继续沿续这一路径发展,走向通用人工智能的宏伟目标。而大模型的成功,不单是算法创新的胜利,更是系统研究的伟大进步。
在大模型的发展史上,Scaling Law(规模律)发挥了核心作用,它是推动模型性能持续提升的主要动力。Scaling Law揭示了这样一个现象:较小的语言模型只能解决自然语言处理(NLP)中的部分问题,但随着模型规模扩大——参数数量增加至数十亿甚至数百亿,曾经在NLP领域中的棘手难题往往能得到有效解决。这一规律不仅已被现实证实,而且预计将在未来继续引领技术突破。
当模型规模较小时,各方面性能随参数的提升趋势较为平缓;随着模型规模不断扩大并超过某个拐点,其性能随参数增加而陡然上升。这就是模型规模扩大带来的能力涌现,也是过去数年间研究人员不懈追求扩大模型规模的重要原因。此外,数据规模和质量也至关重要——研究者要重视数据的规模,而同样规模的数据,高质量的数据会训练出更好的模型。
第二,大模型是新的操作系统和计算体系。
在传统的计算机使用中,人输入数据,计算机进行运算并输出结果,这构成了计算机与人交互的本质。今天的大模型以更简易、更便捷的方式实现了上述功能——人们不再需要编程或打字,只需与GPT进行交流,它就能按照人们的想法执行命令,这表明大模型已经起到了“操作系统”的作用。
作为操作系统,模型简化了人们调用应用程序的过程。正如微信小程序帮助人们减省了在App Store下载应用的过程,大模型甚至省去了搜索小程序的过程。例如,人们只需告诉大模型,画一个亚布力的美景,它就可以画出亚布力各种角度的美景,甚至生成视频。因此随着大模型的应用日益广泛,App这种形态可能会消失,甚至连小程序也会被淘汰。从另一个角度看,大模型作为一种新的操作系统,也给计算体系带来了巨大的转变,即从原来的以CPU为核心转变为以GPU并行处理为核心。这种体系转变会带来新的核心技术和新的玩家。近日英伟达发布财报后,股票上涨了15%,也印证了过去CPU时代的Wintel体系会被当今的大模型和GPU体系所取代。
第三,大模型作为新的平台,会带来新的生态。
大模型正在重塑计算生态。传统计算生态的基础设施层是芯片,模型则建立在云平台之上。如今,AI领域的许多玩家通过云服务调用大模型的API,这种做法昭示着大模型作为一种平台、一种服务的特性。
这就是为什么OpenAI每发布一个新功能,上线一组新代理,做大模型应用的厂家就会担心自己的业务被它“吸进去”,正如当初微软Windows对软件厂商业务带来的威胁和挑战。这种担心印证了模型即平台、模型即应用、模型即产品。
未来,大模型作为一个平台必将重新赋能所有应用,迫使人们重写过去的软件。这就是今天的互联网公司纷纷投入大量资源开发自己的大模型的原因,因为在未来,没有大模型的互联网公司将不再被视为平台公司。这也是亚马逊显示出落伍迹象,市值被后起之秀超越的原因所在。
第四,大模型性能是大规模商业落地的关键。
随着大模型热度日益高涨,许多人尝试从应用出发做一个垂直小模型,但这种做法行不通。如果模型的能力不足以支撑大规模应用场景,其流行可能仅是昙花一现,之后便会面临用户数量的急剧下降。就像30年前苹果公司推出一个名为“牛顿”的小型Pad产品,彼时被认为具有革命性,但很快人们就发现,它的手写和语音识别两个关键技术都都无法支撑新设备,因此该产品很快被撤掉了。
今天的大模型在智能客服、文本生产、办公Copilot等场景均呈现出广泛的应用潜力,但是如果大模型在执行任务时错误率过高,或者幻觉(hallucination)问题始终难以解决,很快就会走向用户大量流失带来的波谷,基于大模型的应用层也会变得差强人意,由此衍生的商业模式终将难以为继。因此,持续改善大模型性能是实现大规模商业落地的关键。
第五,大模型将同时推动存量和新增应用。
随着大模型能力的迅猛发展和持续突破,许多此前计算机仅能勉强辅助的工作,如今大模型已经可以胜任。ChatGPT发布一年多以来,大模型在办公、视频生成、医疗等各类应用场景下的生产效率已经得到了大幅提升,进展速度远超AI 1.0时代。未来,我们将见证大模型推动一系列原生应用快速落地并创造价值。
这些原生应用何时会产生,能否抓住投资机会,是让投资者和从业者倍感焦虑的问题。回顾历史,无论PC时代还是移动互联网时代,在技术快速迭代和平缓发展的时期,都曾涌现出极具潜力的产品。大模型时代的情况也会与此类似,因而不必过分焦虑,市场参与者一方面要快速消化大模型所带来的种种冲击;另一方面,应该专注于自己现有的业务,看一看当大模型性能成熟时,这些业务会发生多么大的改变。
大模型不仅会催生一系列原生应用和AI创业公司,同时也将推动存量市场的增值和发展。正如从PC互联网转移到移动互联网的过程中,存量巨头的市值增长,远大于新生公司的市值总和。放眼未来,我们有理由相信,大模型带来的效率提升必将赋能新的应用场景,同时推动存量市场的增长与原生应用的创收,从而带来整体市值的增长。此外,AI时代原生应用的核心特征,是人与机器的自然交互,因此大模型本身即是AI时代最大的原生应用,我们可以期待这一超级应用的出现。
第六,多模态大模型是AGI的终极模型。
随着Sora模型的出圈,多模态模型开始引燃各行各业。不同于传统语言模型仅将语料作为Token,多模态模型的训练方式是将视频、语音和图像等多模态数据作为Token,训练出能够理解物理世界的大模型。
请Sora根据描述生成一段SUV在山路上行进的画面,结果令人震撼,车在山路上的奔驰能够完全遵守交通规则,拐弯也轻松自如,在没有路径图和3D建模的情况下,模型完全靠“自学”模拟了这一影像。这需要模型对于物理世界的理解,可以说Sora的出现,意味着能够理解、描述和模拟现实世界的“世界模型”取得了突破,也让我们对于走向AGI更有信心。
文生视频是Sora最令人惊叹和备受瞩目的功能,但事实上多模态模型的能力范畴不止于文生图、文生视频,更包括对图片或视频的理解和阐释——多模态模型应同时具备正向的生成与反向的理解能力。诚如美国物理学家理查德·费曼的箴言所揭示:“What I cannot create, I do not understand。”只有大模型真正理解物理世界,才能更好地创造和模拟。如何训练这样的模型?例如,飞行员学习驾驶飞机需要先在模拟驾驶舱中训练很长的时间,模拟驾驶舱是由空间模型和飞机动力学模拟形成,飞行员先从模拟的数据中学习一切操作再应用到现实驾驶中。同样的道理,我们可以通过观察和描述物理世界产生新的训练数据,从而训练出能够理解和模拟物理世界的大模型。按照这个逻辑,谈及未来应用,多模态大模型很可能重新改写自动驾驶系统。过去,所有自动驾驶公司每到一个新的城市,必须花费3到6个月时间重新扫描这个城市的所有街道,未来这项工作可以由多模态大模型代劳。
第七,多模态大模型驱动通用机器——从简单指令到自我规划。
除了语言模型和多模态大模型,以机器人为核心的具身模型也是当今研究的重点方向。通过多模态模型和机器人的结合,能够增强机器人理解和描述周边世界的能力,从而使其能够自主地做出行动,这就是通用机器人的未来。
例如,在训练机械手打开微波炉的任务中,传统机械手可能难以应对微波炉门锁的操作。而引入多模态大模型后,机械手可以通过与模型的交互,学习操作手册,从而掌握打开微波炉前需要先按下解锁按钮的步骤。从这个角度讲,未来的机器人不仅能够执行已经被训练的任务,还可以通过大模型的加持,完成之前没有经过训练,但是能够通过自主学习理解的任务。在大模型的带动下,机器人将完成从简单指令到自我规划的能力跃迁,这个过程让研究者看到了实现通用机器人的可能性。
第八,“奇点”来临,未来将是自主智能的世界。
随着语言模型、视觉模型和机器人具身模型的日臻成熟,人们对实现通用机器人的预期时间,已经由超过十年缩减至五年以内,我们不久后将见证下一代自主行动系统的诞生。
三十年前,当“深蓝”击败俄罗斯棋王卡斯帕罗夫,他意识到计算机能够帮助人类提升棋艺——这是人工智能的Copilot阶段。当技术进化到AlphaZero,计算机不再使用人类的棋谱,而是按照自己的算法、规则和目标函数来下棋,能够使用人类大师无法理解的招数出奇制胜。在AI面前,人类两千年的智慧积淀已经显得微不足道。人类很难再在棋类赢AlphaZero,这表明Copilot会随着AI技术的发展而被取代。
AlphaZero的出现还表明,在部分应用场景中,机器已经有了上帝视角——人类只看到一个小山丘或山谷,而“上帝”则看到了整个地貌。在《奇点来临》一书中,“奇点”(Singularity)一词是指当技术发展的速度超过了人类的平均学习能力时,机器能够比人类更好地完成新任务,任何需要平均IQ、平均技能的任务会被机器所取代。如今大模型所具备的极强的学习与推理能力,昭示着“奇点”即将到来。
展望未来,企业提高生产力和实现业务增长可能将不再依赖雇佣更多或更强能力的员工,而是购买更多算力和使用更强大的自主智能体。这可能是我们即将迎接的未来,一个我们必须去想象的未来。正如《未来简史》作者所说,未来的世界可能只有3%的神人,而剩下的97%将是闲人。今天,大模型已经让我们看到了这一可能性。
(张宏江 美国国家工程院院士、智源研究院前理事长)