最近大家普遍关注两件事:
一是这次的通用人工智能包含哪些内容?ChatGPT于年11月30日发布,用了短短两个月的时间积累1亿用户。它到底是一个以对话为主的好玩的工具?还是一个可以赋能千行百业,能够给以“人力”和“时长”为代表的商业模式带来根本性变革的工具?
二是当2017年《新一代人工智能规划》出台时,大家都很有信心中国在人工智能领域可以跟美国比肩,而在今年一季度很多业界伙伴开始担忧,认为我们无论从算力、算法,还是应用效果上,是不是又有了代差级的差距?现在人工智能到底发展如何?
我想分享下科大讯飞最新的实践,并就这些问题做个简单的分享。
首先是通用人工智能为什么叫通用人工智能?
科大讯飞创立于1999年,一直围绕语音技术和人工智能技术进行研究,希望机器可以像人一样能听会说,能理解会思考,用人工智能建设美好世界。科大讯飞承建中国唯一的认知智能全国重点实验室,核心任务就是要让机器人具备学习、推理和决策能力。
在多年探索中,我们已经让“机器人”在一个个专业赛道上超越了“人”。例如语音合成,如果播音员播报水平是5分,那么机器人已达到4.8分。这意味着,稍微优化,这个机器人就可以给中央电视台《创新中国》栏目配音;在语音识别上,机器人已经超过了最好的专业速记员。2023年全国两会上,2900多个全国人大代表使用科大讯飞产品,准确率为96%;在翻译上,机器人在大学英语六级考试中超过了99%的大学生,顺利通过国家翻译师资格考试;在医疗中,我们让“智医助理”参加国家执业医师资格考试,成绩为456分(满分600分),超过96.3%的考生……
三年前,科大讯飞对GPT所有算法做了深度解读。我们发现,即便是1000多亿的模型还没有60多亿的模型做得好,所以没有花大代价去构建服务器集群和数据。但2022年ChatGPT一经推出就带来了巨大惊喜,我们迅速在15天内进行闪电验证,随后开始启动科大讯飞“1+N”认知大模型专项攻关。其中,“1”是对标ChatGPT的通用认知大模型,“N”是教育、医疗、司法、办公等领域的落地。
这次为什么叫通用人工智能?因为它把海量的多源多模态数据(多源就是多种来源,多模态可以是语音、图像、文本、视频等)送到一个统一的神经网络大模型,这个模型大约是1750亿的浮点参数。原来我们只做60亿的模型就可以把医疗领域的翻译工作做得很好,这次用1000多亿的模型能带来什么好处?我们称为通用领域的智慧涌现。这个大模型可以对海量数据进行记忆、学习和训练,然后具备推理和决策的能力,很多东西即便没有教给它,它也可以自己学会。2023年4月28日,中央政治局专门提出要高度重视通用人工智能发展,7月10号,七部门联合发布《生成式人工智能服务管理暂行办法》,定于8月15号执行。大家都在等着首批厂商什么时候能够给用户提供海量服务。
认知大模型的“智能涌现”将带来解决人类刚需的全新机遇。我们根据ChatGPT解读出的48个主要任务,以及科大讯飞500多万开发者需求分析,得出当前阶段通用人工智能的七大维度能力,即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力和多模态能力。
5月6日,科大讯飞正式发布“星火认知大模型”。我们和长三角人工智能产业链联盟以及中国科学院人工智能产学研创新联盟,把七大维度能力分解成481个子任务。为什么是481个?因为仅仅一个“文本生成”,就涉及到政府公文、广告文案等100多项任务。虽然我们在国内可测系统中已处于领先位置,但与ChatGPT相比还有不少差距。
6月9日、8月15日,我们对星火认知大模型分别进行了两次升级,接下来,我简单说下七大维度的能力。
多风格多任务长文本生成。公文协作、故事创作、广宣文案、书写邮件等功能对工作其实非常有帮助。科大讯飞在做大模型的第一天就坚持中英文同步,在英文文本上,我们与ChatGPT已经非常接近了。再分享一个令我都很惊讶的例子。星火大模型中的讲故事助手为一个小孩讲了72集故事,共计24000多万字,极大激发了孩子的想象力,最后小孩自己创作出了《小猪的故事》。
多层次跨语种语言理解。例如,以前科大讯飞可以把大家开会的速记由声音转为文字,而现在,这个大模型可以把开会的录音直接变成500字、1000字的摘要,如果需要写一个新闻通稿,它也可以一键生成。语音理解能力会让认知大模型成为我们每个人在生活和工作中的助手。它可以像人一样的来调用工具,这是通用大模型最了不起的地方。
知识问答。知识问答并不是原来简单的搜索类问答。星火大模型或认知大模型能学习全世界的知识,它似乎都懂,但它的存在的问题是专业知识精准度不够。所以,可以让其对接行业知识库和企业内部知识库,这样,它就可以在学好后用逻辑进行分析和解答。这就是知识问答的核心逻辑。有了它以后,所有企业的客户服务系统都会发生重大革命。
代码能力。几乎每个企业都需要代码能力,如果没有代码工程师,那么企业内部任何组织流程的变化都需要找专业团队来修改。10月24日,讯飞星火将在代码的各维度能力上超越ChatGPT,2024年上半年对标GPT-4。根据OpenAI构建的代码能力公开测试集HumanEval显示,星火V2.0的Python语言效果已接近ChatGPT。之所以进步这么大,是因为找到了全部方法,我们缺的是时间和算力。
我们的编程助手提高代码生产效率,成效显著。科大讯飞2000多名工程师的工具类代码申请接受率在60%,代码注释甚至到了90%。目前综合效率已提升15%。每天都在进步,2023年的提效会到百分之二三十以上。我认为,如果中国软件行业不赶快用上这样的认知大模型,整个行业会跟美国形成代差级的差距。
多模态能力。当机器具备了图像、视频、语音、文字等能力,它会带来很多帮助。一是在教育、医疗、司法这些领域可以识别图像、文字、看影像结构;二是在工业领域可以自动看懂工业场景,比如在什么地方摆放螺丝钉、如何快速布局和找到库房资源,等等;三是在家庭领域,人口老龄化之后,如果没有陪伴机器人进入家庭,社会幸福是没法保障的。陪伴机器人进入家庭必须要充分了解家庭的各种设施,这需要通过多模态能力来实现和提升。我们本次升级的认知大模型极大地提升了多模态能力,对整个工业自动化生产及家庭陪伴机器人而言,将开辟全新时代。
如果大家用讯飞星火发朋友圈会感到很幸福,因为它可以给随便一张照片配出有意思文案。如果企业想要写一个海外文案,讯飞星火也可以用几分钟的时间做出来,并且还会生成一个虚拟形象进行播报。如果画面不够,机器还能自动补齐需要的画面。这只是制作方面的例子,我认为多模态能力更重要是,在理解上对工业和家庭等场景进行赋能。比如我们的“星火语伴2.0”,能够进行主题对话、虚拟人对话,重点升级虚拟人模考能力和基于多模态技术的自定义情景对话能力,可用AI实现真人式陪练。
最后,我讲一下认知大模型如何在行业内落地应用。第一要安全可控,确保内容安全、算力安全;第二要场景驱动,真正产生价值;第三,形成自己的专属模型。
其中,大模型的“内容安全”涉及两个问题:
一是污语料问题。如果大模型学习的语料中有不良信息,那么如何防止它对外传输,如何滤掉不良信息?这是一个很大的挑战,如果只学中国知识,那么这个大模型就无法代表国家参与全球竞争,要想把它变聪明,必须要学习全世界的知识,而国外的价值观和我们有差异,一旦触碰到,就会面临服务器被关掉的风险。所以,一定要有很强的“清洗”能力。我认为,科大讯飞的语音及语言国家工程技术中心就能很好解决这个问题。
二是幻觉问题。大模型最大的特点在于它什么都懂,但有时也会一本正经地胡说八道。怎么解决大模型的幻觉问题?就是要用通用知识库结合行业知识库及人民日报等语料,针对各类型任务构建专业知识库,以类搜索插件技术实现知识获取,基于大模型的理解和概括摘要能力给出答案。
除了内容安全的问题,还有算力问题。很多人疑问,中国的人工智能是不是被“卡脖子”了?我特别自豪地告诉大家,现在华为的GPU能力已经对标英伟达A100了。要知道,2022年10月7日,美国对中国极限施压,当时中国无法购买A100,只能买英格或A800。过去一段时间,就是因为算子库不全,所以综合效率还有一定的提升空间和差距,但我们现在基本解决了这个问题。
8月15日,科大讯飞和华为联合发布了星火一体机。这意味着,任何企业都可以在我们的平台上做训练、做推理,这非常了不起。以前的“百模大战”基本只能在内部做微小的调优和训练,现在,我们基本解决了这个壁垒。2023年,科大讯飞定了一个目标,即10月24日实现对标ChatGPT,中文全面超越,英文与它相当。坦白讲,现在距离这个目标还有差距,但我们相信10月份就能赶上。2024年上半年科大讯飞将对标GPT4,在算法上我们有信心,在算力上,有华为这样的公司去突破和努力。我们正在跟华为联合打造面向超大模型训练的集群优势,我们有信心在算力领域不被“卡脖子”,通用人工智能的应用成效上也可以跟OpenAI直接对标。
在这个过程中,我们还做了场景驱动。为了让大家立足于自己的内部应用场景,我们提供了丰富的开发平台和各种典型场景包,从客服、办公、运营到研发,等等。
那么,行业龙头企业应该如何运用大模型?底层大模型其实是由我们来完成,我认为到2024年,中国的大模型最多剩下几家,但一定要有人能对标OpenAI。龙头企业一定保证每一行代码和算法都是自己构建出来的,因为你根本不清楚开源模型原来的语料是从哪里训练出来的,而且它不利于企业进步。
在数字经济时代,数字化转型是每个企业必须做的事。以前,企业通过人工智能中台、数据中台和企业级知识库构建企业大脑,下一步,如果不用通用人工智能构建企业大脑,一定会掉队。所以,我认为大家应提前布局,在安全可控的前提下,构建企业自主可进化的企业大脑。
这种布局还需要动用好生态的力量。5月6日以来,科大讯飞人工智能开放平台新增了96万名实名认证的开发者,6月9日以来,星火小助手用户创建数超1万。我们还与行业龙头进行合作,给行业龙头赋能后,按照合作共赢的模式产生新增加值。
我特别希望借助亚布力论坛的平台,让中国企业在各个领域,将数据、算力、算法联通起来,形成我们自己的生态优势,共同打赢这场通用人工智能时代的产业升级之战,共同解放生产力、释放想象力。
(刘庆峰 科大讯飞创始人、董事长)