大模型新的技术发展路径

2024/03/25

过去五年,大模型已经成为人工智能的一个主流趋势,纵观国内外,该领域都出现了很多新的创新进展,创造了包括Sora在内的很多新产品。人工智能大模型的发展,最重要的基石还是数字化。过去30年,IT产业做得最重要的一件事就是数字化。从物理世界到生物世界,都在全方位地进行数字化变革。


麻省理工学院媒体实验室(MIT Media Lab)的尼古拉斯·尼葛洛庞帝(Nicholas Negroponte)将世界一分为二,分为比特世界和原子世界。认为世界是从原子到信息再到比特的变革过程。如果说早期数字化的内容、企业的发展,是从原子到比特的过程,现在则是从比特又回到原子的过程。数字化为大模型的算力算法奠定了基石,使得其技术实现指数级增长。可以说,没有过去这30年的数字化发展,这些大模型技术就不可能实现。


2022年11月底出现的ChatGPT,其发展速度极具跳跃性。ChatGPT的出现表明了以下三点:


首先,第一次有这样一个智能体,通过了图灵测试;其次,它开启了一个通向通用人工智能的亮光。我们离真正实现通用人工智能,可能还有20年甚至更长的时间,但ChatGPT给我们提供了一个方向和道路;第三,大模型是人工智能的一个操作系统。有了大模型之后,才算真正开启人工智能时代。


每次一有新的操作系统出现,原有的产业生态就会被完全改变。PC时代的Windows操作系统,用的是Intel芯片;移动互联网时代的 IOS、安卓系统,用的是ARM的芯片;AI时代的横向大模型操作系统,用的是XPU芯片特别是GPU芯片。这些系统上都有应用商店和各种APP。以GPT-4为例,它有GPT-4S的商店,有GPT-4个性的应用,能开发出各种各样新的垂直模型。


一、大模型技术迎来六大发展方向


无论是从设备的数量还是从影响力上来说,和PC时代相比,AI时代的产业机会至少要大好几个数量级。AI大模型的技术还在发展,我预测未来5—10年,大模型技术的发展方向分为以下几个方面:


第一,多模态。未来会出现跨尺度的、跨不同模态的大模型。现在Gemini、Sora都是新的产品形态,有语音、文字、图像和视频,未来多模态会包括各种各样的蛋白质结构,如汽车的激光雷达信息、人脑生物电的信息等,都是不同模态,它们都会进入大模型时代。


第二,新算法。未来5年会出现新算法。现在的算法看起来聪明,但效率很低,比起人类大脑,它的效率至少要低1000倍。包括OpenAI、微软、谷歌的AI产品,用得越多,亏得越多。未来,新的算法架构和技术架构将会带来很大改变,效率会大幅提升。


第三是自主智能。我们把大模型当作一种工具,它也可以把别的模型作为工具,它可以制定目标、规划任务、自动升级,然后自动成为中介,完成这个目标,不需要人为交互或控制,现在已经有这样完全自主的产品开始出现。


第四是边缘智能。现在大模型放在云端上,以后要放在手机、电脑和各种机器人身上,它会放在各种物联网(IoT)的边缘上,边缘也会有智能。


第五是物理智能。它更时髦的称呼是“具身智能”,就是把大模型用到物理世界里。


第六是生物智能。将大模型用到人的大脑、用到生命体、生物体里,将信息智能、物理智能和生物智能进行融合。


清华大学智能产业研究院(AIR)有三个研究方向:一是AI+自动驾驶/机器人(具身智能);二是AI+IoT(边缘智能);三是AI+生命科学(生物智能)。我举几个例子:


自主智能的智能体,可以用你的模型去调用别的模型,规划任务,让各种模型实现互相调用、互相学习,使每一个模型都比原来更加聪明。


我们也从事了很多边缘智能的工作,有专门的团队研究如何把这些大模型的能力放到汽车、手机和机器人身上。比如,研究如何把计算的效率、模型的尺寸及其延时和功耗等功能调到最优,使之适配于不同的器件。其间涉及到压缩、定制、微调、部署等很多关键技术。


在具身智能方面,以自动驾驶为例,百度2016年就开始做自动驾驶开放平台“阿波罗”,下一步开始做人形机器人。通俗点说,无人驾驶就是一个开车的机器人,大模型加速了这方面的技术发展。做无人车有个很大的难点就是长尾效应,不管有多少测试数据,总有一些场景顾及不到,这时候安全性就十分重要。而大模型可以较好地补足这一缺陷,特别是生成式AI可以生成很多平时测试想象不到的场景。比如,构建AI图像生成模型,包括用新的多模态生成工具。未来无论是汽车还是机器人,90%以上都是生成的数据,10%以下是真实的数据,而生成的数据本身的效率和质量会更高。


现在无人车已经开始走向商用。在美国可以看到Waymo(谷歌母公司 Alphabet 旗下的公司)、Cruise(通用汽车的子公司)等公司在尝试商用;国内的北京、上海、武汉等地也已经开启了商用。尤其是武汉最近推出完全无人的汽车。到了武汉,一下飞机就可以用App打车,在江北将近有1000多平方公里的地方,基本都能打到无人车,最长车程长达80公里。不少公司已经开始部署完全无人化的商业试运营。



很多人问我,无人驾驶的ChatGPT时刻何时到来?无人驾驶什么时候真正会变成主流?我认为,可能在未来2年,就可以看到无人驾驶的ChatGPT时刻。现在无人车比有人驾驶至少要安全N倍,这从技术方面已经实现了。虽然商业运营想要成功,还涉及到很多其他因素,但我非常有信心。


在生物智能方面,以强脑科技的脑机接口为例,它用的是非植入式的芯片,采用高品质的传感器,用脑电、机电和行为的信号,做脑机接口。用意念和信号去控制行为,并加入人工智能算法,通过脑机接口技术,可以帮助“折翼女孩”弹钢琴,改善睡眠等等。再比如,我们自己研发的一个生物医药大模型,在大模型进行训练时,就可以结合知识图谱,将各种固定的信息结合起来。有了大模型之后,就能在上面完成各种任务。


二、大模型的风险与对策


现在无论是语言模型、视觉模型还是多模态模型,人工智能的大模型都拥有强大的功能,未来发展有机会,也有风险。


第一就是信息风险。信息风险一直存在,但大模型带来了更多风险。大模型可以逼真地模拟你的声音、图片和视频。前阵子我在西雅图,大家聊得最多的是,马上要开始总统竞选了,已经有很多人在用大模型模仿拜登或是特朗普,他们害怕这会影响选举的公正性。怎样防范信息风险,确实是个问题。20多年前,我还在微软亚洲研究院做院长时,他们花了3个月时间,收集了大量关于我的数据,并利用这些数据制作出一个能够模仿我声音和视频的“我”,现在这种制作过程已经缩短到只要几秒钟,任何人都分不出真假,技术强大到这种程度,我们就要高度警惕其潜在的风险。


第二个风险是,当信息智能拓展到物理智能、生物智能时,如果失控或是被坏人所利用,将造成极大风险。大模型作为操作系统和工具,会被应用到所有地方,包括金融系统、军事系统和决策系统,此时风险就会呈指数级上升。


第三是生存风险。前段时间,大家谈到人工智能大模型可能会带来和核武器、流行病一样的风险。现在我们处于人工智能研究和产品的早期,尚有很多办法改变它的走向,但如果缺乏这种意识,就会非常危险。


因此,我给各位企业家三点建议:


第一,要建立一个分级体系,特别是建立一个针对前沿大模型的分级体系。一般的人工智能不需要太过严密的监管,但前沿大模型有巨大的能力,对于这种超过万亿、像Sora这样的大模型,一定要加以监管,对使用场景进行必要约束,建立一个完善的评估体系。


第二,要有实体的映射。我一直在做技术,喜欢创新,不希望被约束,这次我却认为,前沿大模型需要更多的治理。以AI产生内容的标识为例,需要标识这些内容的产出源,实现这一目标并不难,如果你做个数字人,用AI产出内容,至少要标识清楚,让大家知道,平台上的内容是由AI产生的。此外,在做智能体时,要让智能体有对应主体,让大家知道,这些都是主体的从属体。如果它犯了错误,出现问题,一定要能追溯到主体。这个技术有难度,但我认为还是可实现的。


第三,我一直在呼吁,做前沿大模型的公司、基金会、科研机构等,要把做前沿大模型的资金抽出10%,用来进行AI风险的研究。AI风险研究并不仅仅是政策的研究,还有很多高深的学术和技术研究。从事技术的人员必须现在就开始着手此事,这样才能与企业、政府共同前进。


现在我们进入了一个真正的人工智能时代,从过去多个算法、多个任务、多个模型,走向现在相对统一的大算法、多模态、自训练、自监督和预训练的大模型。大模型里其实最重要的一点就是Token—based,无论是语音、视频,还是蛋白质的结构,要把所有的模态当作是Token,它处理的方式和算法应该是相对一致的。此外,模型越大的时候,我们对真实物理世界的描述就更加准确。有人说,我们现在的大模型是真实世界的压缩,它的确是一个压缩的模型,但压缩之后,它还可以再创造,这是新一代智能的涌现和统一。


最近在达沃斯大会上,我们预测到2030年,数字经济会达到20万亿美元的规模,这是现在印度和中国GDP的总和。而其中将近10%的GDP,是由大模型、新的生成式AI所创造的。



(张亚勤 清华大学智能产业研究院院长、中国工程院院士)


关闭