抓住AGI机遇

2024/03/25

最近OpenAI发布Sora,引起全球高度关注。我认为,Sora不是简单的AIGC(生成式人工智能)工具,也不是简单的做视频,它预示着通用人工智能的到来只需要两三年,而过去大家认为这一进程需要10—20年,所以企业家要抓住这个机遇。


对企业来说,拥有AI信仰很重要。很多企业家由于对新生事物看不清、看不懂,导致看不起,等你想明白的那一天,已经看不见它了。因为别人已经可能遥遥领先,而你已经失去机遇。AI信仰的关键在于,你相不相信大模型是真的智能,相不相信它是一场新的工业革命?我还增加了一条衡量标准——你相不相信AI正朝着通用人工智能的方向快速前进。如果这些答案都是“YES”,那么我觉得你建立了AI信仰,建议你“ALL IN AI”,仔细思考企业从上到下、各个业务流程有哪些地方可以用AI降本增效。


前阵子,我去美国考察,发现美国大公司都在储备显卡,为下一场人工智能竞赛储备“武器”,投资人非AI不投,创业者非AI不做。他们认为,AI会像1992年的PC、1995年的互联网那样重塑企业所有业务,一家企业如果不拥抱AI,就会被拥抱AI的同行淘汰。


最近我正在琢磨一个“含AI量”的概念,即如何评价和体现一家企业对AI利用的程度。2023年,我发布了自己对2024年大模型发展趋势的十大预测:

(1)大模型无处不在,成为数字系统标配;

(2)开源大模型爆发;

(3)“小模型”涌现,运行在更多终端;

(4)大模型企业级市场崛起,向产业化、垂直化方向发展;

(5)Agent智能体激发大模型潜能,成为超级生产力工具;

(6)2024是大模型应用场景之年,To C出现杀手级应用;

(7)多模态成为大模型标配;

(8)文生图、文生视频等AIGC功能突破性增长;

(9)机器人产业迎来革命性发展;

(10)大模型推动基础科学取得突破。实际上,春节还没过完就有四个预测已经实现,可能等不到二季度就会全部实现,然后我会重新发布预测。


当然,十大预测里没有AGI(Artificial General Intelligence,人工通用智能)的突破,这完全是意料之外。Sora横空出世不仅意味着多模态能力的突破,不仅意味着AIGC文生视频的突破,更意味着通用人工智能的突破。网络上有三个由Sora生成的视频,它们的重点分别在哪儿?


第一个视频里,咖啡掀起的波浪,像极了大海的波浪,同时又加上了咖啡的质感,以往要做出这个效果,需要用流体力学、粒子特效、非常复杂的数学公式以及非常大的算力才能实现。



第二个视频是金毛犬在雪地里撒欢,雪从它鼻子上掉下来,或粘在它鼻子上的镜头,以及金毛犬毛茸茸的样子、雪的蓬松感都很逼真。



第三个视频是,枕头被按下去的皱褶,以及猫爪子陷在被窝里的状态都让人身临其境。



为什么Sora生成的视频令人惊叹?有人说它只能生成1分钟时长的视频,但时长并不是大问题,时间和技术优化能解决这一问题。Sora真正令人惊叹的是,它对物理世界的描绘符合人类的认知和常识。制作一幅静态图很简单,但要在视频里表现物理世界几个不同对象交互的过程,难度很高。此前Pika、Runway两个做文生视频的软件,是将视频当成一帧一帧图形的渲染,像素级画图,画一只狗在雪地里奔跑,就是平行移动,没有真实踩雪花的感觉。枕头被压下去产生的褶皱,或是枕头受到不同力量所发生的形态变化细节,恐怕好莱坞电影工业就很难实现,但是Sora很容易就实现了,它的技术线路,与一帧一帧渲染的图像以及3D建模的思路完全不一样。


所以,我们不能只看表象,而要看到Sora背后对这个世界物理定律的理解和掌握,它非常像人类的梦境,将人在白天里形成的认知与常识,在梦中复现。Sora是如何做到的,我们不得而知,但它的确做到了。一旦Sora放开测试,我就要做一个实验:生成一幅图,场景是一个鸡蛋砸向一只狗的头部。如果它没有看过鸡蛋打碎的情景,可能会描绘出像石头一样硬的鸡蛋砸在狗头上的情景,这是五毛钱特效。如果它知道鸡蛋是易碎的,就会有鸡蛋和蛋清糊在狗头上的情景。


2023年,Open AI发布的GPT实现了第一个突破——解决了机器和人之间对话的问题,但GPT只是实现了对话的基本功能,Sora则实现了机器对这个世界的感知、观察和交互的能力。也就是说,真正给人工智能补上了眼睛。这双眼睛不是工作在感知层面,而是工作在认知层面,通过观察我们这个世界来了解无法用文字表达的场景。


因此,可以进一步推断Sora的训练方法一定是视频,通过在视频上识别出一些对象目标和对应的逻辑关系,就能够直接将很多物理规律模拟出来。这也是我预测AGI的实现将会从十年缩短到两三年的原因所在。


人工智能发展大致有五大阶段:第一阶段是GPT之前的传统AI,也有人称为“人工智障”,人类跟它对几句话后就说不下去了;第二阶段是以GPT和大模型为代表,AI实现了人与机器的交互;第三阶段是了解世界的运行规律,实现通用人工智能的基础功能;第四阶段,目前机器还不能感知到加速度,现在具身智能就是附体在机器人身上,可以更加高效地感知这个物理世界。如果到了这个阶段,基本上就进入了强人工智能;第五个阶段,也是我最期望的阶段,是人工智能帮助人类取得基础科学的突破。比如普通人并不需要知道牛顿定律,就能知道苹果一定会往下掉,但牛顿通过这个现象总结了F=mg公式。目前人工智能只能将这个现象记忆下来,还不能总结公式,如果有一天它也能总结公式,像牛顿一样推理出牛顿力学定律,像爱因斯坦一样推理出相对论,就成了超级人工智能。


我对AGI有两个判断:第一,我认为AGI不是简单的做视频,这只是一个附属功能;第二,AGI的实现不会发生所谓“硅基生物消灭人类碳基生物”问题,而是帮助人类科学不断进步。比如,人类要解决能源问题,首先要掌握室温超导和可控核聚变,这两个技术都需要在物理学等基础科学取得突破,但半个世纪以来,人类在基础科学上都没能取得重大突破,所以AGI真正的价值是成为人类研究科学、研究世界的重要助手和工具,帮助人类取得科学突破。


我觉得中国大型互联网公司要继续在通用大模型方面发力,大企业可以打造企业级、产业级、场景化的垂直大模型,将来To C领域的大模型也会做小,每个人、每个家庭会有个人AI助理或家用机器人。


(周鸿祎  360集团创始人)