把大模型做小

2023/10/23

当前ChatGPT缺乏对行业的深度理解力


大家讨论大模型问题,似乎都隐含了一个前提:好像我们都要走OpenAI之路。我对此是持有疑问的。


第一,OpenAI拥有当前全世界最牛的算力,中国企业要是也想做一个无所不知、无所不能的天才型的“通才”,投入的金钱与资源都是巨大的,其中的难度可想而知。所以,短期来看,OpenAI这条路可能走不通。


第二,OpenAI之路,真的就完全适合中国企业的发展吗?我相信,与讨论怎么学习OpenAI相比,在座的各位企业家可能更关心人工智能怎么与产业数字化及自身的企业相结合。

OpenAI的ChatGPT如果真的用起来,就会发现它存在问题:


首先,ChatGPT看起来是“万金油”,无所不知,但一问到比较深入的行业问题时,它的回答就开始绕圈子,缺乏对行业深刻的理解力。


其次,OpenAI或是通用大模型,都是拿通用的数据集训练的,这种通用大模型用来进行普通的办公写作,效果还可以,但要是与企业业务深度结合,你就会发现它并不了解你的企业。而且企业为了提出更多的要求,会把自身的很多数据传给它,容易导致数据泄漏。


第三,成本高昂。ChatGPT-4,号称训练一次的成本高达2000万美元。据说,训练一个万亿的模型,需要一万张或是十万张卡,这是一个天文数字。这样的人工智能,距离我们当前的产业界和企业界就相对较远。


人工智能是一次工业革命,但工业革命不会自然发生。就如同电脑所产生的工业革命,电脑刚发明时还没有工业革命,只有少数精英团队在使用,而当电脑走下神坛,每个企业都买得起它之后,新的工业革命才产生。


把大模型做小,是产业数字化的巨大机会


我认为,中国还有另一条路,就是把大模型拉下神坛,换句话说,就是把大模型做小。事实上,美国今天也在往这条路上发展。什么叫把大模型做小呢?概括来说,就是行业化、企业化、专业化、垂直化。


大模型很了不起,但我们要在不同的垂直领域培养不同的人才,进行团队作战。我非常反对“大模型是一个操作系统”这样的观点,大模型更像电脑的发展,以后每个企业根据自己的应用场景,可能都有若干套大模型。企业可以注意这里面的几个关键点:


一是把大模型做垂直、做专之后,一定要私有化控制、私有化部署。在公有大模型基础之上,再加入企业内部的知识训练,它已经变成了企业专有的大模型,对你的企业更了解,这个大模型未来是企业数字化最核心的数字资产。


二是企业可以结合自己的应用场景来做大模型。大多数企业做一个大模型,其实不需要具备太多的能力,现在国内的大模型对很多企业来说已经够用。


三是把大模型做小之后,它不一定要在云端,可以在终端、可以在边缘,未来大模型无处不在。


今年,苹果在讨论怎么把大模型部署在电脑上,高通在研究怎么把它部署到手机上,汽车的车载芯片只要算力足够,以后每辆汽车上可能都会有一个大模型。把大模型做小也是全球趋势。


当前很多的开源软件和那些ChatGPT等百亿模型还不能比,但它在企业内部是够用的。把大模型做小之后,由于它只解决垂直领域的任务,参数就不一定要千亿、万亿。企业开发大模型的成本就会从原来的千万美元降到千万人民币或是百万人民币的级别。这样一来,就真正达到了把大模型拉下神坛的目的,这算是现阶段在中国自己的算力得以突破之前的“游击战”。


需要注意的是,我们在谈算力时,一定要区分训练芯片和推理芯片。在推理芯片方面,中国完全没问题,现在很多国产的GPU、智能芯片的要求,比训练芯片的要求低很多。而在训练芯片方面,也不见得每家企业都要做OpenAI。


比如,Facebook可以花2000万美元训练一个模型出来之后,把这个模型进行开源,其他企业在这个模型的基础之上再做微调,微调成本比预训练成本要低很多,这样就不需要花费高昂的成本先去训练。少数公司用大规模的投入,把基础模型训练出来,然后再提供给其他企业,其他企业再用小规模的算力进行微调、部署、推理和计算,就能满足我国当前的发展需求。


虽然中国在原始创新上还需要时间去追赶,但我们人口众多、企业众多、场景众多,如果企业都训练出来自己小规模的大模型,让大模型无处不在,这里面就会产生很多的创新机会。


此外,我们还需要注意内容安全的问题。


大模型在ToC时很容易胡说八道,我们根据各种段子做传送,发现它现在有幻觉和知识模糊的问题。这是未来在企业应用中需要去解决的问题。比如,当大模型给我们开药方、写法律诉状的时候,面对这类非常严谨的问题,它就需要保证知识和企业行业的真实性,不能无中生有和胡说八道。


总的来说,今天国内外做的大模型,其实它的算法和模型本身,并没有什么变化,真正的挑战在于两个:一是数据,就是对什么样的数据进行训练;二是训练的方法,它就像“炼丹”。


OpenAI做了七年,踩了很多坑,由于各种训练的know-how(技术诀窍)不断流传出来,包括在开源的生态上探索了很多训练方法。得益于这些方法,国内大模型的进展速度比我预想得要快。未来,在大模型上,我们与国外唯一的差距,就是算力的差距。


有些场景对企业的影响非常大,我们可以把大模型做小,在垂直领域进行小规模部署,这也是产业数字化真正巨大的机会。



(周鸿祎  360集团创始人)