大模型新的技术发展路径

2024/03/25

过去五年，大模型已经成为人工智能的一个主流趋势，纵观国内外，该领域都出现了很多新的创新进展，创造了包括Sora在内的很多新产品。人工智能大模型的发展，最重要的基石还是数字化。过去30年，IT产业做得最重要的一件事就是数字化。从物理世界到生物世界，都在全方位地进行数字化变革。

麻省理工学院媒体实验室（MIT Media Lab）的尼古拉斯·尼葛洛庞帝（Nicholas Negroponte）将世界一分为二，分为比特世界和原子世界。认为世界是从原子到信息再到比特的变革过程。如果说早期数字化的内容、企业的发展，是从原子到比特的过程，现在则是从比特又回到原子的过程。数字化为大模型的算力算法奠定了基石，使得其技术实现指数级增长。可以说，没有过去这30年的数字化发展，这些大模型技术就不可能实现。

2022年11月底出现的ChatGPT，其发展速度极具跳跃性。ChatGPT的出现表明了以下三点：

首先，第一次有这样一个智能体，通过了图灵测试；其次，它开启了一个通向通用人工智能的亮光。我们离真正实现通用人工智能，可能还有20年甚至更长的时间，但ChatGPT给我们提供了一个方向和道路；第三，大模型是人工智能的一个操作系统。有了大模型之后，才算真正开启人工智能时代。

每次一有新的操作系统出现，原有的产业生态就会被完全改变。PC时代的Windows操作系统，用的是Intel芯片；移动互联网时代的 IOS、安卓系统，用的是ARM的芯片；AI时代的横向大模型操作系统，用的是XPU芯片特别是GPU芯片。这些系统上都有应用商店和各种APP。以GPT-4为例，它有GPT-4S的商店，有GPT-4个性的应用，能开发出各种各样新的垂直模型。

一、大模型技术迎来六大发展方向

无论是从设备的数量还是从影响力上来说，和PC时代相比，AI时代的产业机会至少要大好几个数量级。AI大模型的技术还在发展，我预测未来5—10年，大模型技术的发展方向分为以下几个方面：

第一，多模态。未来会出现跨尺度的、跨不同模态的大模型。现在Gemini、Sora都是新的产品形态，有语音、文字、图像和视频，未来多模态会包括各种各样的蛋白质结构，如汽车的激光雷达信息、人脑生物电的信息等，都是不同模态，它们都会进入大模型时代。

第二，新算法。未来5年会出现新算法。现在的算法看起来聪明，但效率很低，比起人类大脑，它的效率至少要低1000倍。包括OpenAI、微软、谷歌的AI产品，用得越多，亏得越多。未来，新的算法架构和技术架构将会带来很大改变，效率会大幅提升。

第三是自主智能。我们把大模型当作一种工具，它也可以把别的模型作为工具，它可以制定目标、规划任务、自动升级，然后自动成为中介，完成这个目标，不需要人为交互或控制，现在已经有这样完全自主的产品开始出现。

第四是边缘智能。现在大模型放在云端上，以后要放在手机、电脑和各种机器人身上，它会放在各种物联网（IoT）的边缘上，边缘也会有智能。

第五是物理智能。它更时髦的称呼是“具身智能”，就是把大模型用到物理世界里。

第六是生物智能。将大模型用到人的大脑、用到生命体、生物体里，将信息智能、物理智能和生物智能进行融合。

清华大学智能产业研究院（AIR）有三个研究方向：一是AI+自动驾驶/机器人（具身智能）；二是AI+IoT（边缘智能）；三是AI+生命科学（生物智能）。我举几个例子：

自主智能的智能体，可以用你的模型去调用别的模型，规划任务，让各种模型实现互相调用、互相学习，使每一个模型都比原来更加聪明。

我们也从事了很多边缘智能的工作，有专门的团队研究如何把这些大模型的能力放到汽车、手机和机器人身上。比如，研究如何把计算的效率、模型的尺寸及其延时和功耗等功能调到最优，使之适配于不同的器件。其间涉及到压缩、定制、微调、部署等很多关键技术。

在具身智能方面，以自动驾驶为例，百度2016年就开始做自动驾驶开放平台“阿波罗”，下一步开始做人形机器人。通俗点说，无人驾驶就是一个开车的机器人，大模型加速了这方面的技术发展。做无人车有个很大的难点就是长尾效应，不管有多少测试数据，总有一些场景顾及不到，这时候安全性就十分重要。而大模型可以较好地补足这一缺陷，特别是生成式AI可以生成很多平时测试想象不到的场景。比如，构建AI图像生成模型，包括用新的多模态生成工具。未来无论是汽车还是机器人，90%以上都是生成的数据，10%以下是真实的数据，而生成的数据本身的效率和质量会更高。

现在无人车已经开始走向商用。在美国可以看到Waymo(谷歌母公司 Alphabet 旗下的公司)、Cruise(通用汽车的子公司)等公司在尝试商用；国内的北京、上海、武汉等地也已经开启了商用。尤其是武汉最近推出完全无人的汽车。到了武汉，一下飞机就可以用App打车，在江北将近有1000多平方公里的地方，基本都能打到无人车，最长车程长达80公里。不少公司已经开始部署完全无人化的商业试运营。

很多人问我，无人驾驶的ChatGPT时刻何时到来？无人驾驶什么时候真正会变成主流？我认为，可能在未来2年，就可以看到无人驾驶的ChatGPT时刻。现在无人车比有人驾驶至少要安全N倍，这从技术方面已经实现了。虽然商业运营想要成功，还涉及到很多其他因素，但我非常有信心。

在生物智能方面，以强脑科技的脑机接口为例，它用的是非植入式的芯片，采用高品质的传感器，用脑电、机电和行为的信号，做脑机接口。用意念和信号去控制行为，并加入人工智能算法，通过脑机接口技术，可以帮助“折翼女孩”弹钢琴，改善睡眠等等。再比如，我们自己研发的一个生物医药大模型，在大模型进行训练时，就可以结合知识图谱，将各种固定的信息结合起来。有了大模型之后，就能在上面完成各种任务。

二、大模型的风险与对策

现在无论是语言模型、视觉模型还是多模态模型，人工智能的大模型都拥有强大的功能，未来发展有机会，也有风险。

第一就是信息风险。信息风险一直存在，但大模型带来了更多风险。大模型可以逼真地模拟你的声音、图片和视频。前阵子我在西雅图，大家聊得最多的是，马上要开始总统竞选了，已经有很多人在用大模型模仿拜登或是特朗普，他们害怕这会影响选举的公正性。怎样防范信息风险，确实是个问题。20多年前，我还在微软亚洲研究院做院长时，他们花了3个月时间，收集了大量关于我的数据，并利用这些数据制作出一个能够模仿我声音和视频的“我”，现在这种制作过程已经缩短到只要几秒钟，任何人都分不出真假，技术强大到这种程度，我们就要高度警惕其潜在的风险。

第二个风险是，当信息智能拓展到物理智能、生物智能时，如果失控或是被坏人所利用，将造成极大风险。大模型作为操作系统和工具，会被应用到所有地方，包括金融系统、军事系统和决策系统，此时风险就会呈指数级上升。

第三是生存风险。前段时间，大家谈到人工智能大模型可能会带来和核武器、流行病一样的风险。现在我们处于人工智能研究和产品的早期，尚有很多办法改变它的走向，但如果缺乏这种意识，就会非常危险。

因此，我给各位企业家三点建议：

第一，要建立一个分级体系，特别是建立一个针对前沿大模型的分级体系。一般的人工智能不需要太过严密的监管，但前沿大模型有巨大的能力，对于这种超过万亿、像Sora这样的大模型，一定要加以监管，对使用场景进行必要约束，建立一个完善的评估体系。

第二，要有实体的映射。我一直在做技术，喜欢创新，不希望被约束，这次我却认为，前沿大模型需要更多的治理。以AI产生内容的标识为例，需要标识这些内容的产出源，实现这一目标并不难，如果你做个数字人，用AI产出内容，至少要标识清楚，让大家知道，平台上的内容是由AI产生的。此外，在做智能体时，要让智能体有对应主体，让大家知道，这些都是主体的从属体。如果它犯了错误，出现问题，一定要能追溯到主体。这个技术有难度，但我认为还是可实现的。

第三，我一直在呼吁，做前沿大模型的公司、基金会、科研机构等，要把做前沿大模型的资金抽出10%，用来进行AI风险的研究。AI风险研究并不仅仅是政策的研究，还有很多高深的学术和技术研究。从事技术的人员必须现在就开始着手此事，这样才能与企业、政府共同前进。

现在我们进入了一个真正的人工智能时代，从过去多个算法、多个任务、多个模型，走向现在相对统一的大算法、多模态、自训练、自监督和预训练的大模型。大模型里其实最重要的一点就是Token—based，无论是语音、视频，还是蛋白质的结构，要把所有的模态当作是Token，它处理的方式和算法应该是相对一致的。此外，模型越大的时候，我们对真实物理世界的描述就更加准确。有人说，我们现在的大模型是真实世界的压缩，它的确是一个压缩的模型，但压缩之后，它还可以再创造，这是新一代智能的涌现和统一。

最近在达沃斯大会上，我们预测到2030年，数字经济会达到20万亿美元的规模，这是现在印度和中国GDP的总和。而其中将近10%的GDP，是由大模型、新的生成式AI所创造的。

（张亚勤清华大学智能产业研究院院长、中国工程院院士）