从AI范式看大模型的未来

2024/03/25

2022年11月30日ChatGPT的发布,是大模型发展的标志性事件,它引爆了整个科技界。我曾经与ChatGPT进行过一段对话,我问它,“第一个登上珠穆朗玛峰的人是谁?”我故意把“珠穆朗玛峰”其中几个字打错,如果是传统NLP,可能答不出来,但ChatGPT答得很好,它有很强的容错能力。接着,我问“第一个中国人是谁?”大家知道,人与人之间的对话,经常会有各种省略,对机器来说,识别人类省略的内容一直是个难题,而ChatGPT能理解上下文,给出了正确的回答。最后,我又追问了一句“乔戈里峰呢?”ChatGPT仍然能够理解上下文,答得非常好。简单来说,与ChatGPT对话,很多时候就像与一个知识渊博的真人对话。


ChatGPT展示出了AGI(通用人工智能)雏形。AGI也称为“强AI”,简单说,意味着机器可以做任何人类能做到的事。未来,ChatGPT类大模型很有可能会成为AI基础设施,赋能千行百业。当然,发布ChatGPT后,OpenAI并没有止步,又发布了Sora。其实我们大家想知道ChatGPT背后的原理是什么,为什么会发展成这样,作为一个在AI领域有近30年经历的“老兵”,我尝试从AI技术范式演进的角度做初步分析,最后我得出的结论是:ChatGPT的出现有偶然性,但从技术演进来看是必然的。


AI技术的发展其实就是人类追求自我解放的“躺平”之路,人类希望机器把事情都做了,而且又能创造极大价值。非严格地说,AI技术发展经历了1-2-3-4等多个范式的演进。当然,下面的时间段并不是划分得特别严格,只是个大致的说法。


范式1:基于规则的AI(1950s~1990s)。这个阶段的做法很朴素,就是“人工规则+规则匹配器”,比如,判断一篇文章是否和篮球有关,人类会写一系列规则,如果文章内容包含“姚明”,那么它和篮球相关性就强。这种做法一是需要篮球领域专家书写大量规则,人力费用高;二是复用性差——无法适用于足球或者其他领域;三是效果差,很多领域很难通过规则来覆盖。AI处于范式1的阶段时,我正在读博士,主要研究基于规则的机器翻译系统,很多机器翻译的规则极其复杂,难以拓展,规则相互之间可能有冲突。比如中文的“打”字,作用于不同对象就会有不同英文翻译,并且不能直接按照主谓宾的顺序翻译,像“How old are you”,如果直接翻译,就会变成“怎么老是你?”这个方法肯定无法持续,当时我就在想,难道写规则就是我们的宿命?


范式2:基于(标注)小数据的AI(1990s~2010s)。这个阶段的做法是“人工标注数据+小模型(统计机器学习模型)训练”,再以判断一篇文章是否和“篮球”有关为例,在收集大量文章后,由人工标注每篇是否与篮球相关或不相关,这样得到的数据称为标注数据。之后,人工再将可能的特征如姚明、篮协等列出来,形成特征表示,再交给机器学习、训练。这种方式不需要专家标注,人力费用有所降低,但是仍需要大量人工标注才能保证效果,此外,它的复用性和效果均不理想。


范式3:基于(标注)大数据的AI(2010s~2017s)。这个阶段的做法是“大量人工标注数据+深度学习模型训练”。深度学习最大的好处,是可以通过训练自动找到文章中符合这个领域的特征,不再需要人工总结。但是复用性的问题还是没解决。


范式4:基于(无标注)大数据的AI。这个阶段的做法是“巨量无标注数据+大模型预训练+微调”。在范式1—3阶段,所有数据都基本上需要人工标注。进入范式4时,互联网上任何无标注数据都可以用做训练。此外,范式4的训练分为两步,先是预训练,打通用知识的基础,再是接受专业知识训练。


继续以判断一篇文章是否和篮球有关为例。此时,先是直接利用某个上游(通用)任务,在无标注数据上进行预训练,得到基座大模型。之后引入下游(专用)任务数据或者直接通过指令微调,从而得到适应当前任务的模型。在范式4阶段,由于利用无标注数据,标注费用大大降低,复用性也大大提升。


小结一下,技术发展的四个范式就是在追求尽量复用、尽量通用、尽量一劳永逸的过程。由此可以看出,ChatGPT的出现确实有一定偶然性,不管是普通人,还是专业人士都没有想到它突然间出现,但人类确实在这个方向上做了很多探索,这样看又有一定必然性。


但是我想提醒一下几个可能存在的理解误区:


第一,技术范式越高,实际应用中就一定越好。技术范式之间并非完全替代的关系,它们之间有一定的互补性,可以共同发展。实际应用时要看具体场景,再根据投入产出等因素综合考虑使用哪种技术范式。


第二,大模型不需要太多人力投入。虽然大模型复用性很高,但实际上它仍然需要大量人力投入,比如对所有训练数据进行清洗、预处理等等,再比如,对齐或微调阶段也需要不少的数据标注。不过,这些数据处理的工作量,相对于把所有的训练数据都标注一遍来说,不算特别大。这里有个相对的含义。


第三,专用大模型在领域内一定会超过通用大模型。有人认为,在预训练阶段或者已有预训练大模型基础上加入大量专用数据进行训练,可以提高大模型在专业领域的能力。从大模型的技术原理来看,这不一定对。大模型预训练是为了提高通用能力,加入过多的专业数据有可能造成“偏科”,带来通用能力的下降,从而造成在专业领域内的能力也不好。也就是说,在提升通用能力和专用能力时,务必注意两者之前的平衡。


从个人角度看,我很有幸生在这个年代,能够经历一场科技革命。AI的下一步发展空间仍然很大,拥抱大模型就是拥抱未来。


(王斌 小米集团人工智能实验室主任、NLP首席科学家)