提高泛化能力,迎接机器人“ChatGPT时刻”

2026/04/07

过去十几年,宇树科技专注于高性能足式和人形机器人的自主研发,从四足到人形机器人,从实验室到行业应用,我们始终在做一件事,那就是让机器人真正成为新质生产力的一部分。“十五五”将具身智能列为重点发展方向,这与我们的实践理念相契合。

接下来我主要分享宇树科技成立以来的实践和思考。

宇树科技成立于2016年,在此之前,我在上海读硕士期间(2013 - 2016年),研发了一台名为X – Dog的机器人,它开创了全球范围内低成本高性能足式机器人技术方案的先河。

2023年,宇树科技开始正式做仿身人形机器人。实际上,我与人形机器人的缘分可以追溯到更早。2009年,刚上大一的我,在第一个寒假就用200元人民币制作了一款小的双足机器人。算起来,我在机器人行业已经深耕了十几年。

2024年,宇树科技发布了第二代人形机器人。这款机器人在2024 - 2025年取得了非常瞩目的成绩,尤其是2025年,它基本上是全球出货量最多的人形机器人,大概出货了五千台。这款机器人相对小巧,约1.3米高,更加轻量化,关节自由度和灵活性非常好,这些特点让它深受市场欢迎。

除了人形机器人,我们在机器狗领域也不断推陈出新。2025年,我们发布了新一代工业级应用的机器狗。之前发布的机器狗,尺寸或大或小,而这款相对更中型。它具备防尘防水功能,续航时间超长,充满电空载续航可以达到20多公里,在硬指标方面处于全球领先水平。

2025年下半年,我们还发布了新一代小巧的人形机器人。我们深知,要让一项技术像当年的手机和电脑一样普及,最大的挑战之一是让更多人使用、采购,吸引更多开发者参与。当年个人电脑刚出现时,对普通老百姓而言,用途似乎并不大,最初很多人只是用它来打游戏,人形机器人目前也处于类似的阶段。虽然马上将其大规模应用于家庭或工厂还为时尚早,但各种偏娱乐或偏商业的场景已经开始使用。

我们的目标很明确,就是希望全世界有更多人在我们的平台上,或者在人形机器人平台上共同开发,每年每月都能诞生各种各样的应用和软件,让人形机器人的能力越来越强、功能越来越丰富、受众越来越广泛,规模体量也能更快增长。这款小巧的人形机器人最便宜可以卖到三万人民币左右,在全球具有很强的竞争力。

2025年8月,宇树科技参加了北京人形机器人运动会,这应该是全球首次举办的人形机器人运动会。我们取得了1500米、400米、4×100米和障碍赛的冠军,是全场获得冠军数和总奖牌数最多的公司。当时机器人最快速度是5点几米每秒,虽然在100米跑项目上还不能超越人类,但在1500米项目上仅用时6分多钟,比公司所有人跑得都快。我预计,再过几个月,到2026年年中,全球尤其是中国人形机器人的速度会有更大提升,百米冲刺速度应该能跑到10秒以内。

另外,在软件升级方面,我们在2025年也取得了重要成果。在任意动作情况下,我们的机器人都可以实现自我恢复。我们深知,大规模普及机器人,稳定性至关重要。如果机器人连走路、跳舞都做不到,就不可能大规模应用。2026年春晚,宇树科技的20几台机器人全自动表演,稳定性非常高,这得益于我们的相关技术,弥补了机器人在稳定性方面的不足。而且,目前通过数据采集和AI训练,机器人可以学会人类能做的各种动作。

我们在2025年还发布了新一代人形机器人H2,它的尺寸更大,约1.8米高。目前出货量比较大、大家使用较多的是小一点的人形机器人,因为使用起来更方便安全。但在工业场合或未来农业场景中,机器人需要从事体力劳动,对尺寸和手臂力量要求更大。不过,大型机器人也有小缺点,其自重大约70kg,力气较大,用户与1.7米或1.8米的机器人最好保持2 - 3米的安全距离。

很多人认为宇树科技只是在国内知名度较高,其实我们在海外的知名度也一直不低。去年,宇树科技及产品,包括我本人,就非常荣幸地获得了《时代杂志》的奖项。

最近几年,我们在机器人AI领域,尤其是机器人强化学习领域取得了明显进步。2023年,机器人大概只能简单走路或跑步;2024年,基本可以做一些相对复杂的舞蹈动作;2025年最大的升级是功夫模式,机器人可以打出各种功夫,理论上,普通人已经很难战胜1.8米的机器人。由此可见,去年人形机器人技术进步显著,今年还会有更多精彩呈现。

今年春晚,我们的《武BOT》节目也取得了非常好的成绩。我们搜罗了全中国历史上几百个经典武术动作,让机器人复刻后筛选出几十个精彩动作呈现给观众,其中包含醉拳、双节棍、舞剑、舞棍等经典动作。为了挑战极限,我们还设计了一些更复杂的动作,如单腿连续空翻,这对硬件和稳定性要求更高;两步上墙,比一步踩墙难度更大。这个节目不仅在国内备受瞩目,在海外关注度也非常高,那一周时间,海外网站几乎被刷屏,很多国家的官方电视台都有报道。在义乌分会场,我们结合中国传统文化,让机器人扮演大圣这一经典角色,这个节目不仅是科技的展示,更是中国传统文化的呈现。中国功夫在海内外都有很高的认可度,机器人功夫节目实现了科技与文化的出海。

为了呈现这个节目,我们对机器人进行了很多改进。例如,头上加装了128线3D激光雷达,增强了复杂场景定位能力;训练预训练的AI模型,使机器人动作能够复杂衔接。目前市面上其他厂家的AI训练模型,动作不能随意切换,做完一个动作才能进行下一个,而我们的机器人可以直接暂停,暂停后可切换任何动作,对动作组合性要求更高。我们还开发了全身协调能力,以及集群定位和跑位算法。在2025年初的《秧BOT》春晚节目中,为了让机器人变队形时动作更自然,我们采用了跑位算法,让机器人跑步变队形,视频没有加速,走位非常快,能变各种队形。

2月底,宇树科技有幸接待了德国总理默茨来访。他带来了德国最顶尖的29个企业家,我们向他们展示了各种尺寸的机器人及其表演,包括工业落地应用和生产零部件展示。他们本人和企业对我们的机器人产品非常感兴趣。

前段时间,我们开发了全身摇操作系统。之前的表演和武术动作都是预训练的,先采集人的动作再训练,编排好后不能随时变化。而这套全身摇操作系统可以实时变化,人在做什么动作,机器人就能同步做出相应动作。这个技术有两个非常实用的功能。一是用于人形机器人大规模数据采集。现在的AI靠数据驱动,数据质量越好,AI能力越强,但目前人形机器人数据非常稀缺。通过这套系统,我们可以在2026年年底前部署几千台甚至一万台人形机器人,每天采集10个小时数据,近一两年甚至两三年内,有望解决人形机器人数据问题。二是我可以在杭州远程控制其他地方的机器人,这样以后就不用回公司上班了,不过目前还面临通讯延迟等挑战。

大家可能觉得我们公司机器人表演较多,其实过去几年,我们的机器人在工业领域也有部署试点落地应用。比如,我们让机器人在自己工厂装配自己的关节电机,希望未来机器人真正投入使用时,能实现机器人自己生产机器人,这将极大提升生产力,也是一件非常有趣的事。过去几年,我们还与一些头部汽车公司开展了合作,不过目前这个领域在全球范围内都还处于试点阶段,因为目前的效率和成功率面临不少挑战,AI能力还需要进一步提升。

我们公司一直贯彻运动和干活并行推进的理念。我们相信,运动能力是机器人真正干活的先决必要条件。就像运动员一样,运动能力越强,干活能力也会越强。当人形机器人运动能力足够丰富时,通过组合各种动作,就可以完成各种干活任务。

最近一两年,在众多客户的共同努力下,人形机器人行业技术进步非常快。2025年全球范围内人形机器人技术都有显著提升,我们公司也进步迅速。很大一部分原因是,全世界有很多我们的客户,顶尖科技公司、实验室和高校,都在使用我们的机器人开发软件,这加速了整个行业的技术进步。2026年行业技术进步也会很快,如果未来真正AI的具身智能达到临界点,我们公司的出货量可能直接飙升到一年几百万台。因为这是全球大家共同努力的结果,并非一家公司的功劳,全球共创加速了整个行业的技术迭代。

机器人领域和中国AI领域确实都取得了明显技术进步。我个人印象很深的是2026年1月份字节跳动的Seedance 2.0视频生成软件,我认为它是目前全球最好的视频生成软件,效果遥遥领先。我相信未来具身智能模型也能取得明显技术进步,但目前距离具身智能或机器人“ChatGPT时刻”还差一点火候,仍面临一些挑战。

目前最大的挑战是机器人AI泛化能力不够。对于机器人来说,如果在特定场景或几个场景提前训练,成功率基本能达到100%,但换一个场景,成功率就会大幅下降。要提高泛化能力,一是要提高模型的表达能力。如果模型本身的表达能力或能做的动作丰富度不够,泛化能力肯定不行,所以要提高模型对机器人运动的表达能力。二是要提高数据利用率。在语言模型或多模态领域,互联网上有大量数据,但机器人领域的数据非常稀缺,我们希望在有限数据的情况下提高数据利用率,这对整个行业都很有价值。三是强化学习的一些功能和效应需要进一步提升。目前全球范围内具身智能或机器人领域的一些模型进步,主要有两个流派。一个是VIA模型,即在语言模型或文字模型基础上加入机器人模型;另一个是世界模型,通过对世界的预估来建模推动发展。我个人觉得世界模型,包括基于视频生成的世界模型,有很大发展可能性。

这也是我们2025年开源基于视频生成的世界模型的原因。我非常看好基于视频生成的世界模型。如果让AI生成一个机器人在家干活的视频,视频质量足够好,理论上把视频与机器人动作对齐,机器人就可以去干活了。这个想法简单直接,但目前面临的最大挑战是视频和机器人动作无法很好地对齐统一,这是全球面临的共同难题。如果这个问题解决,机器人具身模型基本上就可以诞生。2025年我们还开源了基于VIA模型,目前全球做这类事情的公司可能更多一些。

对于具身智能迎来真正的“ChatGPT时刻”这个问题,有人乐观预估只需18个月,我相对保守,认为至少要2 - 3年,但真正的发展速度可能会超乎想象。

我对具身智能的“ChatGPT时刻”做了一个简单的定义:在80%的陌生场景中,通过语音或文字指令,机器人能够顺利完成大约80%的任务。例如,在一个全新的场景里,一台人形机器人可以在不认识任何人的情况下,无需提前建图、预估,能够自主完成递水、找笔等任务。那时,具身智能就真正迎来爆发前夜。

要实现这个愿景,全球合作是关键。当下,AI和机器人的发展是全球共创的成果,各个公司你追我赶,不断做出贡献。在这个过程中,中国及宇树科技有很好的先发优势,这主要得益于时代和前辈的探索,给我们奠定这么好的土壤去实现目标。我对此深怀感激。

关闭