后北大博导造人形机器人,不学特斯拉

美国不是中国模版。

文丨王与桐

编辑丨程曼祺

今年5月,一批身高1.72米的新工人来到美国得州工厂上班,他们负责把一粒粒圆柱形的4680电芯从传输台上码放到面前的红色盒子里。他们不算熟练,甚至动作迟缓、笨手笨脚。但这批工人是Optimus,特斯拉2022年发布的人形机器人,一切不一样了。

“完美的使用场景”“进步神速”“失业警告”,在特斯拉释放的机器人工作视频下,人们的评论有惊叹,有担忧。

王鹤却不这么想,他觉得Optimus目前阶段“还是个research(研究)”。

1992年出生的王鹤,现任北京大学前沿计算研究中心助理教授和博士生导师,他本科毕业于清华大学电子系,博士毕业于斯坦福大学,在计算机视觉、机器人学和人工智能的顶级会议CVPRICCV等上发表数十篇论文。

去年5月之后,王鹤被更多人关注到的身份是智能机器人公司“银河通用”的掌舵人。今年6月,银河通用以7亿元融资打破2024天使轮融资记录。

大部分公司做完整的人形机器人,王鹤认为,双腿现阶段不是最优解,徒增成本。“不是人形机器人的操作能力足够强,就差腿了。而是现在还有大量的活,传统机械臂操作不了。”王鹤判断双手在场景落地上更有价值,而大量场景其实不需要双足运动能力,比如巡检、巡逻,机器狗和车一样能做。

银河通用的Galbot在捡垃圾,它没有双腿,而是可折叠的单腿 轮式底盘。

获取足够多的数据是具身智能发展的难点,特斯拉、Google都选择用“遥操”采集数据,即让真人戴上一些采集设备来完成机器人要学的动作。王鹤觉得这样算不过账:“Google做十几万条数据,就用了十多个月、花了上千万美元。”银河通用选择allin“Sim2Real(从仿真到真机的迁移)”,即主要依靠合成仿真数据。

美国的人形机器人公司钱多、胆大,王鹤的一个观察是,这让他们没有严格地寻找PMF(ProductMarketFit,产品和市场的匹配),“在美国,既然有钱,就一口气把它全做了”。但缺乏真实数据、硬件不稳定等行业难题,必须要落在场景才能解决,所以他认为,要从第一天起就考虑商业化。

“我们不要把特斯拉做的东西奉为圭臬。”王鹤说,中国的创业公司“在没有美国资本充裕的情况下,还讲人家的故事,那只能是死路一条”。

王鹤不认同特斯拉,行业里不少人也不认同银河通用。以王鹤看中的Sim2Real为例,不少从业者认为仿真合成数据与真实世界天然存在差异,这会影响训练效果。银河通用的第一款机器人盖博特面世后,有对手说感觉“松了口气”:“Demo和实际的应用差距很大”,“写了很多抓取的论文,最后一只手是吸盘。”

更大的质疑是,现在不是创业做人形机器人的时机。一些投资人认为,现在这批公司会成为先烈,因为硬件、材料、能源等很多技术还不成熟。李开复讲具身智能,说“我们肯定不能现在去投一个10年后才发生的事”;真格合伙人戴雨森说,具身还是黑莓时期,投不出iPhone。

人形机器人和具身智能仍处于极早期阶段,而且这是一个链条长、技术栈复杂的行业,AI、材料、能源、机械控制;开发、制造、供应链管理、客户拓展,最终活下来的公司不能有短板。

判断赢家还太早,这篇访谈记录了一位年轻科学家出发一年后看到了什么。他现在相信:大公司虽然掌握更多资源,但不一定正确,这是他的机会。

具身智能和人类社会的最大公约数

《晚点》:你从2016年开始研究如今的具身智能——把视觉模型、自然语言模型和机器人操作模型结合。从这些年的研发中你看到了什么?

王鹤:我在读博时就在做具身智能,当时还不叫“具身智能”,最初是把这三个分立的小模型结合在一起,实现类别级物体位姿估计(位姿:一个物体在三维空间中的位置和姿态;位资估计:找到一个物体的位姿),其实就是双手通用性操作。

回国之后、创立这儿之前,我在宇树机器狗的后背装了一根臂,尝试让它做一系列操作。但发现计算、资源甚至整套系统,很多地方不能满足我们的需求。

当时觉得,如果不做硬件,就只能完全仰赖别人,系统研发迭代也会受限。机器人本体产业不存在时,很难只做智能。

《晚点》:后来发生了什么变化?为什么在2023年决定创业?

王鹤:具身智能创业更早就在中国发酵了,比美国要早,主要原因是硬件和本体的成熟度。

美国的制造业不允许快速做出具身智能的完整demo,美国零部件供应不全,很多东西都得进口,而且硬件工程师也很匮乏。而中国做硬件,能做到成本最低、可靠性最高,像宇树做人形机器人,几个人半年就做出来了。

但本体只是个大号玩具,下一步是智能上要怎么竞争。到2023年时,全球出现了PaLM-E等具身多模态大模型,多模感知与具身操作之间的火花被点燃。我决定在这个时间创业。

《晚点》:为什么你创业选择做人形机器人?具身智能的载体不一定是人形。

王鹤:确实存在各种形态,狗、飞机、车都是。但所有形态里,具身智能跟人类社会最大的公约数只能是“人形”。

因为整个生产、生活环境都是为人设计的,人形能做的操作是最多的,未来数量也会最大,经济产值也最大。从愿景上说,具身智能和人形机器人可以划等号。

《晚点》:不少人认为具身智能的创业窗口还没到,现在这批公司会成为先烈,硬件、材料、能源等很多技术还不成熟。比如李开复讲具身智能,说“我们肯定不能现在去投一个10年后才发生的事”;真格合伙人戴雨森说,具身还是黑莓时期,投不出iPhone。

王鹤:我与李开复老师2019年见面时,他说还要50年,现在他已经从50年加速到10年了。

我们也不能用手机类比具身智能,从功能机到智能机,技术发生了很大变化,而现在具身智能的技术方向已经明确了:本体与大模型融合,成为通用机器人。

这时,下场越早,技术和数据积累就越多,会在后期拉开差距。机器人进入场景后,真实场景的数据会补足智能。后入局者极难超越一家已经有上万台机器人、不断有真实数据回流,并且已经在场景里踩过坑的公司。

这和自动驾驶类似,只有卖出足够量的车,才会有足够多数据,才能用数据更快完善算法。Google和特斯拉之争,特斯拉就赢在车足够多。

具身智能有可能长成与车媲美的市场。它拥有与历次技术变革的特点:初期慢,逐步替代专用机器人;而一旦达到万台级规模,会加速替换传统产业。

《晚点》:一个事实是,具身智能创业热发生在ChatGPT和大模型热潮之后。但实际上大模型只能解决具身智能的小部分问题,所以会有人觉得现在还太早。

王鹤:具身智能是软件、硬件和算法融合的产物。现阶段它与大模型的结合点,一是通用感知和语言交流,这是在解决交互问题。比如有人来药店里问机器人,哪里不舒服应该吃什么药?熟悉药品名目和位置的机器人才能和人对话。

另一个结合是,现在在抓、放物体等具体操作时,机器人也实现了基于大模型的端到端(输入感知信息后直接输出机器人轨迹),未来在整个全局规划上,大模型会发挥作用。

总体看,大模型现在是辅助,但大模型和小模型结合,有可能通向通用机器人。

《晚点》:银河的路线就是三维视觉小模型 基础大模型,怎么理解?

王鹤:就像我们人有系统一、系统二,有快思考、有慢思考,前者是小脑的能力,在机器人里就是交互控制、灵巧操作等技能,这可以靠小模型处理;后者是大脑的能力,就是认知、理解、规划,用大模型解决。

这是一个三层系统:底层是硬件,中间层是能执行各种技能的小模型,上层是负责任务规划的基础大模型。机器人接到指令后,大模型负责调用中间层的小模型,小模型执行完后,大模型根据结果再研究下一步。

双足没那么重要,手才是关键

《晚点》:都是做人形,行业里多数公司的机器人有双腿,你们的第一款机器人盖博特(Galbot)是轮式底盘 双手。

王鹤:最本质的问题是,你的产品到底能给场景带来什么价值?双足只解决了通行问题,没有操作能力,这样就只能做巡逻、巡检等场景,这和过去用车和狗没有质的变化。

但双手能做传统机器人做不了的柔性生产,它们多是人力密集型产业里的糙活,比较容易泛化,想象空间和场景非常多,所以上半身的重要性高于下半身。

《晚点》:手的操作能力和双足的复杂运动能力哪个更难?大家设想的最终形态都是完整的人形,先做手的公司,会不会到时想补足运动能力时却跟不上?

王鹤:现在大部分操作都是双手实现的,所以我们先用“手”进入场景,腿的部分用可替代的、低成本通用轮式底盘,先有商业化,获得真实数据。

双腿的问题是无法在真实场景落地,所以做双腿的公司要拼持续融资能力,未来三年会大浪淘沙。当然随着双腿性能变好,价格合适,我们也会换上腿。

《晚点》:一起做为什么不是一个选择?

王鹤:因为不是人形机器人的操作能力足够强,就差腿了。现在还有大量的活,传统机械臂操作不了。

从实际使用去考虑,轮式机器人的成本和稳定性都远胜于双足。同等身高下,两条腿的BOM(原材料成本)比一个轮式底盘贵十倍。而且双足还容易摔,机器人摔了就彻底坏了。

双腿现在的技术难题还有待突破,比双手场景落后很多。比如东西从货架掉到地上,现在全世界任何一个腿式人形机器人都做不到弯腰捡起来

《晚点》:下蹲对人挺简单的,为什么机器人做不到?

王鹤:最难的是全程维持身体平衡。腿的平衡能力有几个阶段:第一步是走路,第二步是上台阶,这就已经难倒了一批公司。第三步是弯腰,难点是重心会出来,再就是蹲和分腿蹲,目前实验室里都做不到。

双腿是迟滞于双手发展的,对人也是这样,婴儿只会爬的时候,手就可以到处探索,但能站起来并稳定行走却要很久,很多人到六七岁还会摔跤。

其实双足走路二十年前就有demo了,今天真能在地上走个十分钟都没事的,屈指可数。很多双足机器人的稳定性根本达不到大家的期待。在具身智能领域,大脑的发展领先于双臂双手,双臂双手又领先于双腿。

《晚点》:特斯拉的人形机器人Optimus就是同时做双手和双足,现在都能在工厂工作了。

王鹤:Optimus现在的工作场景跟腿没有任何关系,在工厂抓电池以及在车场里来回巡检,不需要双腿能力的提升。

而且很难算账:机器人成本是十几万、二十万美元,但干的活是把完全一模一样的电池放到五乘六共三十个格的盒子里,也就是把标准的电池放在标准的筐里,筐的位置都是定死的。这样的事情为什么需要具身智能?为什么不是用传统的工业自动化?

《晚点》:银河通用盖博特(Galbot)在美团的药房分拣药品,这用机械臂也可以做,但你们也用了人形的上半身。

王鹤:我们做这个场景是要展示具身的能力,太难的东西目前技术还没发展到这一步,就先找能做的。特斯拉的场景本来就是用机械臂实现的,甚至不是在替代人。在药房中完成的是由人类完成的工作,难度本身就比特斯拉更高,其次只用工业自动化是没法实现的,因为不同的药品并不是标准品,不同的订单也不是标准需求。

不把特斯拉奉为圭臬,遥操解决不了数据问题

《晚点》:数据较少是现在具身智能的一个的难点:文本的数据现在有15T,图片是6B,视频是2.6B,但机器人的数据只有2.4M。特斯拉和Google都是通过“遥操”采集数据,即让真人穿戴采集设备完成机器人要学的动作,而银河通用是“allinSim2Real”,即仿真合成数据。为什么你们和他们不一样?

王鹤:遥操不是创业公司玩得起的。遥操要先雇很多人去重复做各种操作。得到一条有效数据,需要一台机器人和一个人一起花30秒或一分钟。

这是人形机器人和自动驾驶很不一样的地方。特斯拉做自动驾驶,可以让一百万车主花钱买车,总共开上亿小时,不需要额外花钱搞数据。而且开车就是一件事,工厂里的工种却种类繁多——打胶的、放电池的、拧螺丝的……不同任务间关联可强可弱。

特斯拉找了数十人在放电池的场景遥操,但之后绕线、组装等更多操作场景,就不止这些了。特斯拉有很多钱,有自己的工厂可以买自己的机器人,它能这么干,创业公司不行。

就像无人驾驶现在会有远程监控员一样,遥操可以发挥远程接管的价值。机器人在场景里干活出问题了,现场没人,这个时候就可以遥操介入。

《晚点》:所以遥操是大厂的游戏?

王鹤:这是马斯克在讲的故事。我们不要把特斯拉做的东西奉为圭臬,实话实说,这就是个research(研究)。

Google做RT(robottransformer,一种机器人控制算法)时,有200多个人的“EverydayRobots”团队,做完RT-1后,这个部门就被裁撤了,就是因为商业模式不存在。

现在中国的具身智能公司,只有没有自己路线的才学美国的特斯拉和Google。没有美国公司资本充裕,还讲人家的故事,那只能是死路一条。

《晚点》:这是不是也取决于做出通用机器人所需的数据的量,小于一个量级时,特别有钱的大公司或特别能融钱的创业公司也许也能跑通遥操路线?

王鹤:我们自己的实验发现,比如在抓取这个任务上,当有十亿次抓取数据时,机器人的成功率能到87%,如果数据量缩到万分之一,也就是10万次抓取时,成功率就只有58%。这说明具身智能也有清晰的scalinglaws,它对数据有更大渴求。

而在真实世界里很难获得十亿量级的数据。Google做十几万条数据,就用了十多个月、花了上千万美元。

《晚点》:仿真能让成本降低多少?

王鹤:通过仿真合成,一秒钟就可以把六十张图全部渲染完。相比采集真实世界的数据,合成数据几乎约等于不要钱。我们的第二曲线才是从真实世界里获得数据。

在仿真器中,我们将每个物体的运动,合成200条视频,再从单一物体仿真合成为一类物体。这会生成大量数据,我们以此训练机器人的抓取能力。

《晚点》:不少人认为用仿真器(提供一个仿真虚拟环境的系统)得到的合成数据与真实世界的数据天然有差异,会影响训练效果。你们怎么解决?

王鹤:仿真器永远不可能完全真实,但Sim2Real路线也不需要仿真器完全仿真,它是硬件、算法和仿真联合优化的过程。

现阶段,仿真器是一个验证工具,用算法表达的数学物理模型才是获得抓取位资的核心。

仿真器仿确实有一些限制,比如我们的手去摸矿泉水水瓶,即柔性的、能形变的手去接触看似刚性、其实也能形变的物体,这个过程不是点接触,而是摩擦,这在物理上都没有被完美建模。

这时就需要我们的算法有极强的自适应能力,比如加触觉、加力控,学“形”,抓了再控制,这样就能把仿真里最难的这部分问题规避掉。还有一个前提是,硬件要充分的鲁棒(Robust,指异常情况下系统也能相对稳定地运行)。

《晚点》:仿真器和数学物理模型等算法具体怎么配合?

王鹤:我们提出一套数学物理模型,高效搜索怎么抓,再用仿真器验证,这么抓是否可行。

这里还涉及强化学习和监督学习的差异。如果是强化学习,就是跟仿真器多次交互、试错,摸索出一条方案,这对仿真器的真实性会有不小的要求,足式行走就是完全靠仿真器强化学习Sim2Real的。但这是试出来的,效率比较低。

如果你能够告诉机器人怎么抓,就可以转化成监督性学习,那么学习效率会更高。我们就是用监督学习来习得二指和五指的抓取。

从第一天就考虑商业化

《晚点》:中国做人形的公司大多也在做别的产品,比如智元有商用清洁机器人,逐际和宇树都同时在做机器狗,而美国更多是直接推出人形机器人。为什么有这个差别?

王鹤:中美资本的充裕度不一样。在美国,既然有钱,就一口气把它全做了。像FigureAI、特斯拉,这些公司都是走全人形的。但FigureAI现在25亿美金的估值,在demo里展示的操作,跟运动能力没有任何关系。美国的泡沫,让他们不需要按非常严格的PMF(productmarketfit)去思考问题。

今年8月,FigureAI发布新机器人Figure02,它已能在宝马汽车工厂里做一些组装demo。

《晚点》:你觉得更正确的路是一开始就要思考产品落地,这在人形机器人这样的前沿领域会不会太着急了?

王鹤:一方面还是数据问题。具身智能跟硬件绑定,所以如果机器人不到场景中铺开,很难获得大量数据。但又不能免费、大量铺出去,因为造本体的成本太高了。大模型不需要通过商业化去获取数据,是因为它普及的成本还是远低于机器人。

同时机器人也欠打磨。如果不在场景中对机器人长期观察,也无法将机器人迭代到能稳定工作的状态。这也是机器人赛道里没有PPT公司的原因。

《晚点》:你看到的产品落地方式是什么?

王鹤:第一步是在单一环境里,对多种物体做单一操作,比如在同一个厂房、同一条产线里,搬不同的东西。这是GoogleRT-1和特斯拉Optimus现在干的事,但Optimus处理的物体更少。这两个都还不是真正泛化,也就是通用化,还不能真正挣钱。

下一步,是机器人能在同行业里的不同场景,对不同物体做相同操作。比如在工业制造业,从能在车厂中拿零件扩展到在任意工厂能拿所有零件;在零售行业,从能在小超市里上货,扩展到也能在沃尔玛里上货。一次训练,击穿同行业不同场景,这就有很大价值了。

再下一步,才是更多任务、更多场景,跨行业全都handle,不断走向通用。

《晚点》:整个行业现在都在第一步,这时怎么选第一个或第一批场景?

王鹤:任何一个行业里,只要是柔性生产但又没完全自动化的场景,具身智能机器人都有可能落地。尤其是制造业里有一些不显眼的操作,需求可能很强,需要的技术可能也不复杂。

我们要从易到难,从人力成本高到人力成本低,从需求量大到需求量小,逐个去做。

《晚点》:在药房里拿药符合你说的这个逻辑吗?还是因为美团投了你们,所以你们做了这个场景?

王鹤:我们想率先抢占高利润、高价值,并且能向更强的通用性转化的场景,未来的目标是进入家庭。

BtoC就比纯toB更适合进家,所以我们在零售布了一个BtoC的场景,跟人打交道。

《晚点》:你们的第一款机器人什么时候发售?

王鹤:今年Q4会接受小批量定单,定价在50万。

《晚点》:这在药房取药是不是太贵了?

王鹤:我们现在有两个主要销售方向,科研场景和类似美团这样的商业化的场景。这些场景的价格和配置是不同的。

我们卖给科研场景的是自带充分算力的可开发版本。而我们卖给商业场景的就不支持开发,会增加一些功能,削减另一些不必要的功能和算力,比如现在机器人上放的都是OrinX的卡,但在商业场景,计算可以放到云端。

现在科研场景的预定已经有几十台了。而在商业场景,从机器到服务,我们团队会全程负责。

《晚点》:你曾说过,银河有望把一套机器人的成本控制在5万元,那会是在什么时候?

王鹤:今年做不到,但当达到千台、万台时,我们会向这个目标不断接近。

《晚点》:有一个玩笑是,中国人形机器人的销量是靠创业公司、高校实验室等同行撑起来的。

王鹤:科研天花板肯定低,但科研是第一步。不可能一家成立一年的公司就能卖一千台机器人,除非是玩具。

《晚点》:我们聊了很多具身智能行业现在的非共识,后北大博导造人形机器人,不学特斯拉你觉得现在的共识是什么?

王鹤:目前为止,尚未出现哪个具身智能的场景能产生规模化经济效益。怎么能挣钱没有共识,所以倒推的产品形态是什么,技术是什么,产业是什么,场景是什么,都没有共识。

没有共识是很好的事情。就是说如果大家都形成共识了,那么最后拼的就是成本、资源、人脉。这些要素都不是创业者擅长的,对创业是不利的。

但是要畅想未来,技术的终局,进家 全人形 大模型,这个恐怕大家都能认同。

《晚点》:你会怎么形容现在一大批新企业追求EmbodiedAGI的历程?

王鹤:这是人类再次扮演造物主的过程。汽车产业也是完全被人创造出来的产业,通用机器人未来也是这样。我们当中也会出现像特斯拉一样的领军车企。

免责声明:本网站部分内容由用户自行上传,若侵犯了您的权益,请联系我们处理,谢谢!联系QQ:2760375052

分享:

扫一扫在手机阅读、分享本文