提高泛化能力，迎接机器人“ChatGPT时刻”_观点_研究中心

提高泛化能力，迎接机器人“ChatGPT时刻”

2026/04/07

过去十几年，宇树科技专注于高性能足式和人形机器人的自主研发，从四足到人形机器人，从实验室到行业应用，我们始终在做一件事，那就是让机器人真正成为新质生产力的一部分。“十五五”将具身智能列为重点发展方向，这与我们的实践理念相契合。

接下来我主要分享宇树科技成立以来的实践和思考。

宇树科技成立于2016年，在此之前，我在上海读硕士期间（2013 - 2016年），研发了一台名为X – Dog的机器人，它开创了全球范围内低成本高性能足式机器人技术方案的先河。

2023年，宇树科技开始正式做仿身人形机器人。实际上，我与人形机器人的缘分可以追溯到更早。2009年，刚上大一的我，在第一个寒假就用200元人民币制作了一款小的双足机器人。算起来，我在机器人行业已经深耕了十几年。

2024年，宇树科技发布了第二代人形机器人。这款机器人在2024 - 2025年取得了非常瞩目的成绩，尤其是2025年，它基本上是全球出货量最多的人形机器人，大概出货了五千台。这款机器人相对小巧，约1.3米高，更加轻量化，关节自由度和灵活性非常好，这些特点让它深受市场欢迎。

除了人形机器人，我们在机器狗领域也不断推陈出新。2025年，我们发布了新一代工业级应用的机器狗。之前发布的机器狗，尺寸或大或小，而这款相对更中型。它具备防尘防水功能，续航时间超长，充满电空载续航可以达到20多公里，在硬指标方面处于全球领先水平。

2025年下半年，我们还发布了新一代小巧的人形机器人。我们深知，要让一项技术像当年的手机和电脑一样普及，最大的挑战之一是让更多人使用、采购，吸引更多开发者参与。当年个人电脑刚出现时，对普通老百姓而言，用途似乎并不大，最初很多人只是用它来打游戏，人形机器人目前也处于类似的阶段。虽然马上将其大规模应用于家庭或工厂还为时尚早，但各种偏娱乐或偏商业的场景已经开始使用。

我们的目标很明确，就是希望全世界有更多人在我们的平台上，或者在人形机器人平台上共同开发，每年每月都能诞生各种各样的应用和软件，让人形机器人的能力越来越强、功能越来越丰富、受众越来越广泛，规模体量也能更快增长。这款小巧的人形机器人最便宜可以卖到三万人民币左右，在全球具有很强的竞争力。

2025年8月，宇树科技参加了北京人形机器人运动会，这应该是全球首次举办的人形机器人运动会。我们取得了1500米、400米、4×100米和障碍赛的冠军，是全场获得冠军数和总奖牌数最多的公司。当时机器人最快速度是5点几米每秒，虽然在100米跑项目上还不能超越人类，但在1500米项目上仅用时6分多钟，比公司所有人跑得都快。我预计，再过几个月，到2026年年中，全球尤其是中国人形机器人的速度会有更大提升，百米冲刺速度应该能跑到10秒以内。

另外，在软件升级方面，我们在2025年也取得了重要成果。在任意动作情况下，我们的机器人都可以实现自我恢复。我们深知，大规模普及机器人，稳定性至关重要。如果机器人连走路、跳舞都做不到，就不可能大规模应用。2026年春晚，宇树科技的20几台机器人全自动表演，稳定性非常高，这得益于我们的相关技术，弥补了机器人在稳定性方面的不足。而且，目前通过数据采集和AI训练，机器人可以学会人类能做的各种动作。

我们在2025年还发布了新一代人形机器人H2，它的尺寸更大，约1.8米高。目前出货量比较大、大家使用较多的是小一点的人形机器人，因为使用起来更方便安全。但在工业场合或未来农业场景中，机器人需要从事体力劳动，对尺寸和手臂力量要求更大。不过，大型机器人也有小缺点，其自重大约70kg，力气较大，用户与1.7米或1.8米的机器人最好保持2 - 3米的安全距离。

很多人认为宇树科技只是在国内知名度较高，其实我们在海外的知名度也一直不低。去年，宇树科技及产品，包括我本人，就非常荣幸地获得了《时代杂志》的奖项。

最近几年，我们在机器人AI领域，尤其是机器人强化学习领域取得了明显进步。2023年，机器人大概只能简单走路或跑步；2024年，基本可以做一些相对复杂的舞蹈动作；2025年最大的升级是功夫模式，机器人可以打出各种功夫，理论上，普通人已经很难战胜1.8米的机器人。由此可见，去年人形机器人技术进步显著，今年还会有更多精彩呈现。

今年春晚，我们的《武BOT》节目也取得了非常好的成绩。我们搜罗了全中国历史上几百个经典武术动作，让机器人复刻后筛选出几十个精彩动作呈现给观众，其中包含醉拳、双节棍、舞剑、舞棍等经典动作。为了挑战极限，我们还设计了一些更复杂的动作，如单腿连续空翻，这对硬件和稳定性要求更高；两步上墙，比一步踩墙难度更大。这个节目不仅在国内备受瞩目，在海外关注度也非常高，那一周时间，海外网站几乎被刷屏，很多国家的官方电视台都有报道。在义乌分会场，我们结合中国传统文化，让机器人扮演大圣这一经典角色，这个节目不仅是科技的展示，更是中国传统文化的呈现。中国功夫在海内外都有很高的认可度，机器人功夫节目实现了科技与文化的出海。

为了呈现这个节目，我们对机器人进行了很多改进。例如，头上加装了128线3D激光雷达，增强了复杂场景定位能力；训练预训练的AI模型，使机器人动作能够复杂衔接。目前市面上其他厂家的AI训练模型，动作不能随意切换，做完一个动作才能进行下一个，而我们的机器人可以直接暂停，暂停后可切换任何动作，对动作组合性要求更高。我们还开发了全身协调能力，以及集群定位和跑位算法。在2025年初的《秧BOT》春晚节目中，为了让机器人变队形时动作更自然，我们采用了跑位算法，让机器人跑步变队形，视频没有加速，走位非常快，能变各种队形。

2月底，宇树科技有幸接待了德国总理默茨来访。他带来了德国最顶尖的29个企业家，我们向他们展示了各种尺寸的机器人及其表演，包括工业落地应用和生产零部件展示。他们本人和企业对我们的机器人产品非常感兴趣。

前段时间，我们开发了全身摇操作系统。之前的表演和武术动作都是预训练的，先采集人的动作再训练，编排好后不能随时变化。而这套全身摇操作系统可以实时变化，人在做什么动作，机器人就能同步做出相应动作。这个技术有两个非常实用的功能。一是用于人形机器人大规模数据采集。现在的AI靠数据驱动，数据质量越好，AI能力越强，但目前人形机器人数据非常稀缺。通过这套系统，我们可以在2026年年底前部署几千台甚至一万台人形机器人，每天采集10个小时数据，近一两年甚至两三年内，有望解决人形机器人数据问题。二是我可以在杭州远程控制其他地方的机器人，这样以后就不用回公司上班了，不过目前还面临通讯延迟等挑战。

大家可能觉得我们公司机器人表演较多，其实过去几年，我们的机器人在工业领域也有部署试点落地应用。比如，我们让机器人在自己工厂装配自己的关节电机，希望未来机器人真正投入使用时，能实现机器人自己生产机器人，这将极大提升生产力，也是一件非常有趣的事。过去几年，我们还与一些头部汽车公司开展了合作，不过目前这个领域在全球范围内都还处于试点阶段，因为目前的效率和成功率面临不少挑战，AI能力还需要进一步提升。

我们公司一直贯彻运动和干活并行推进的理念。我们相信，运动能力是机器人真正干活的先决必要条件。就像运动员一样，运动能力越强，干活能力也会越强。当人形机器人运动能力足够丰富时，通过组合各种动作，就可以完成各种干活任务。

最近一两年，在众多客户的共同努力下，人形机器人行业技术进步非常快。2025年全球范围内人形机器人技术都有显著提升，我们公司也进步迅速。很大一部分原因是，全世界有很多我们的客户，顶尖科技公司、实验室和高校，都在使用我们的机器人开发软件，这加速了整个行业的技术进步。2026年行业技术进步也会很快，如果未来真正AI的具身智能达到临界点，我们公司的出货量可能直接飙升到一年几百万台。因为这是全球大家共同努力的结果，并非一家公司的功劳，全球共创加速了整个行业的技术迭代。

机器人领域和中国AI领域确实都取得了明显技术进步。我个人印象很深的是2026年1月份字节跳动的Seedance 2.0视频生成软件，我认为它是目前全球最好的视频生成软件，效果遥遥领先。我相信未来具身智能模型也能取得明显技术进步，但目前距离具身智能或机器人“ChatGPT时刻”还差一点火候，仍面临一些挑战。

目前最大的挑战是机器人AI泛化能力不够。对于机器人来说，如果在特定场景或几个场景提前训练，成功率基本能达到100%，但换一个场景，成功率就会大幅下降。要提高泛化能力，一是要提高模型的表达能力。如果模型本身的表达能力或能做的动作丰富度不够，泛化能力肯定不行，所以要提高模型对机器人运动的表达能力。二是要提高数据利用率。在语言模型或多模态领域，互联网上有大量数据，但机器人领域的数据非常稀缺，我们希望在有限数据的情况下提高数据利用率，这对整个行业都很有价值。三是强化学习的一些功能和效应需要进一步提升。目前全球范围内具身智能或机器人领域的一些模型进步，主要有两个流派。一个是VIA模型，即在语言模型或文字模型基础上加入机器人模型；另一个是世界模型，通过对世界的预估来建模推动发展。我个人觉得世界模型，包括基于视频生成的世界模型，有很大发展可能性。

这也是我们2025年开源基于视频生成的世界模型的原因。我非常看好基于视频生成的世界模型。如果让AI生成一个机器人在家干活的视频，视频质量足够好，理论上把视频与机器人动作对齐，机器人就可以去干活了。这个想法简单直接，但目前面临的最大挑战是视频和机器人动作无法很好地对齐统一，这是全球面临的共同难题。如果这个问题解决，机器人具身模型基本上就可以诞生。2025年我们还开源了基于VIA模型，目前全球做这类事情的公司可能更多一些。

对于具身智能迎来真正的“ChatGPT时刻”这个问题，有人乐观预估只需18个月，我相对保守，认为至少要2 - 3年，但真正的发展速度可能会超乎想象。

我对具身智能的“ChatGPT时刻”做了一个简单的定义：在80%的陌生场景中，通过语音或文字指令，机器人能够顺利完成大约80%的任务。例如，在一个全新的场景里，一台人形机器人可以在不认识任何人的情况下，无需提前建图、预估，能够自主完成递水、找笔等任务。那时，具身智能就真正迎来爆发前夜。

要实现这个愿景，全球合作是关键。当下，AI和机器人的发展是全球共创的成果，各个公司你追我赶，不断做出贡献。在这个过程中，中国及宇树科技有很好的先发优势，这主要得益于时代和前辈的探索，给我们奠定这么好的土壤去实现目标。我对此深怀感激。

关闭

观点

提高泛化能力，迎接机器人“ChatGPT时刻”

其他文章

“中超”赚钱还是赚吆喝

一带一路与中国企业国际化

人工智能在中国

陈启宇：复星的未来医疗之路

曹远征：去杠杆核心是去“僵尸”