为具身智能进化构建软硬协同新范式

  • 2025-08-04 14:07:22
  • 821

日前,腾讯发布了具身智能开放平台tairos,这是国内首个以模块化的方式提供模型、开发工具和数据服务的具身智能软件平台。“模型层包括了多模态感知模型、规划大模型以及感知行动联合大模型,相当于提供机器人的右脑、左脑和小脑,机器人硬件本体厂商可以各取所需。”腾讯首席科学家、腾讯roboticsx实验室主任、福田实验室主任张正友在接受中国证券报记者采访时表示。

“身智相融”“软硬协同”,这是张正友在采访中频繁提及的关键词。2018年加入腾讯组建机器人实验室roboticsx以来,张正友团队推出过多款不同形态的机器人原型产品。在对国内六七十家机器人公司的广泛调研过程中,其团队发现,很多厂商很难同时做好软硬件。张正友表示:“具身智能本身需要非常大的投入,我们想把自己的一部分能力,例如具身智能软件的能力变成平台化的东西开放出来,希望能够让整个行业发展得更快、更健康。这是我们的出发点。”

●本报记者杨洁

补齐关键软件能力

跑着跑着,“头”掉了仍然继续跑……在张正友看来,机器人马拉松比赛中的这一幕,充分反映了当时机器人在感知行动联合能力方面的不足。不过,他也表示:“行业进步很快,明年再比,也许就可以甩开遥控器,实现自主奔跑。”

“智能”正成为各大机器人追求“进化”的核心着力点。在tairos发布环节,一台接入了tairos平台能力的宇树机器人g1按照“走到我身边”的指令顺利走到了张正友身边——它知道“身边”是什么意思,在哪里,还能规划怎么走过去。

“我问它,要不要喝一杯,它回答说,太忙了,晚上要加班。昨天晚上彩排的时候,它还不是这么说的。这是我第一次听到它说晚上还要加班。”张正友向记者回忆发布环节的细节,这是“智能”带给人类的“小惊喜”。

这些都是机器人感知、规划、行动能力提升的表现。但还远远不够,比如除了视觉感知,还要有力感知、触觉感知这些能力。“如果地面结冰了,不在跑道了,视觉没有看到,一定要靠传感器的力感知才能快速调整。”张正友说,这都是机器人仍然需要进化的领域。

事实上,当前机器人整体硬件能力提升要比软件能力提升更快,因为具身智能本身更难、投入也更大。“我们调研了国内六七十家机器人公司发现,一个公司想要把具身智能从本体到软件全部做好是不现实的,尤其是初创公司,它可能硬件能力比较强,但ai能力比较弱,因为所需投入比较大。如果能够利用tairos平台帮助他们在模型方面实现进步,整个能力就会提升。”张正友表示,“身智融无碍”,这正是腾讯推出具身智能开放平台tairos的初衷,致力于为机器人本体与应用开发商补齐关键软件能力。他强调,腾讯聚焦于软件能力不断进化和开放,而非做机器人本身。

双足人形并非终点

张正友2018年组建腾讯机器人实验室roboticsx,其团队曾推出多模态四足机器人max、轮腿式机器人ollie以及自研三指/五指灵巧手trx-hand、自研机械臂trx-arm以及人居环境机器人原型“小五”等。

2024年9月推出的“小五”,采用四腿轮足复合设计,兼具足式越障与轮式高效移动能力,并配备大面积触觉皮肤、多指灵巧手及安全人机物理交互系统,主要面向智慧养老场景需求。比如腾讯展示了养老院场景实验中,“小五”抱扶老人、取快递、自主避障推轮椅等功能。

复杂的人居环境,是张正友最感兴趣也是探索机器人技术应用的核心战场。“人居环境是一个极具难度的场景,安全性、鲁棒性挑战都很大,用这样比较难的场景驱动来打造研究原型,目的不是把机器人变成产品,而是把机器人的智能水平和本体里的某些核心技术(例如触觉传感器技术等)向前推进。”张正友认为,前沿探索有很多不确定性,不能被产品化所引导,靠产品引导来做研究是做不成的,“假如是说什么时候一定要交付什么,往往就会做成hardcode(硬编码)的东西。”

张正友也认为,双足人形并不一定是人居环境的最佳形态。他指出,目前的人居环境以平地为主,双足效率相对较低,如果把双足人形作为标准,就把很多想象力限制了,“人居环境里是不是会有更高效、更理想、更佳的机器人形态,这是我们要去探索的。”

张正友坦言,养老这样的复杂人居环境场景具有很多困难,“我加入腾讯成立机器人实验室曾有一个十年的规划,现在七年已经过去了,三年以后,我希望养老等各方面应用能做起来。这也是腾讯为什么没有在机器狗等形态的产品上做过多停留的原因。因为还有更大的目标在支撑着我们,假如一开始停留在轮腿一体化、机器狗上面,那后面就没精力去做其他东西了。”

公众热情不是坏事

张正友指出,腾讯现阶段的重点是模型能力和仿真环境的优化。“模型能力、数据采集、仿真环境,这里面难点很多,每个环节都有不少需要提升的地方。”他举例说明,“在仿真环境里面如何让触觉很真实地仿真出来?像人的触觉,空间分辨率在1毫米左右,在仿真环境里面目前还达不到这么好的分辨率。”

此外,张正友认为,大语言模型可以通过文本来理解世界,但机器人不行,针对真实世界有很多东西是用文字描述不出来的,3d世界模型还处于初步阶段,“机器人需要的对3d世界的认知并不是简单地将一张照片变成3d就可以了”,这些方面可能没有任何一家企业能单打独斗就很好地攻关,需要全行业一起努力。“更多企业和研究单位参与进来,对具身智能的发展是利好。我们也愿意把具身智能软件能力开放出来,帮助行业发展。”张正友说,也许会有技术不够成熟的企业最后倒闭,但这是任何一个技术发展过程当中都会出现的现象。

在张正友看来,外界的高度热情不是坏事。他表示:“投资人以及行业从业者其实对具身智能领域什么能做、什么不能做、发展到什么阶段、什么时候到来,心里是很清晰的。社会公众对于机器人服务人、融入生产和生活有很高的期待,这种热情对我们来说是一件好事,也对我们提出了更高要求,给我们提供了很多试验场。”

“具身智能行业还是刚刚起步,处于初级阶段,如何让具身智能行业往前走,我们怎样用现有的能力投入,让整个生态更完善,这是最重要的。”张正友说。