转自:钛媒体

8月24日下午,2024世界机器人大会上,举行了一场期待已久的中国、美国“具身智能”与人形机器人领域学者的“世界对谈”。

大名鼎鼎的“机器狗之父”、美国波士顿动力创始人Marc Raibert(马克·雷伯特)首次来到北京。他说,“我简直不敢相信,不仅是机器人的数量,难以置信,还有这么多热情的人参加了展览。中国对机器人的兴奋和热情很高。”

而此次与Marc对谈的四位CEO所在的公司也不寻常:除了宇树科技之外,星动纪元、银河通用、北京具身智能机器人创新中心都成立不足2年,一出道就是具身智能和人形机器人行业的“顶流”。

而且,星动纪元、银河通用背后也站着中国最高学府:北大和清华,代表着中国前沿科技创新的重要来源。

其中,星动纪元由姚期智带领的清华大学交叉信息研究院孵化成立的,星动纪元创始人陈建宇现在还是清华大学交叉信息研究院助理教授,公司融资超亿元,联想创投已加入其中。

银河通用机器人创始人的王鹤则是北京大学助理教授,也是北京智源人工智能研究院具身智能研究中心主任,过去半年,银河通用完成天使轮融资共计7亿元人民币,刷新了国内人形机器人领域单轮融资规模,美团战投、北汽产投、商汤国香基金、讯飞基金、启明创投、蓝驰创投、经纬创投、源码资本、IDG资本等头部财务机构都参与其中。

而北京具身智能机器人创新中心则是北京市发起成立的机器人“国家队”机构。北京具身智能机器人创新中心总经理熊友军,目前还是“人形机器人第一股”优必选科技CTO。

Unitree Robotics(宇树科技)也是当下人形机器人行业的明星企业。公司创始人、CEO、CTO王兴兴毕业于上海大学,取得了机械工程硕士,具有近10多年足式机器人研发经验,拥有产品从0-1-100的研发与商业化落地能力,100+项机器人相关专利。

此次圆桌由德国慕尼黑工业大学教授 Alois.C.Knoll主持,美国波士顿动力创始人Marc Raibert(马克·雷伯特),与中国四大AI机器人企业领军者——陈建宇、王兴兴、王鹤、熊友军,五人围绕机器人行业、AI 大模型驱动机器人发展等议题展开讨论。

一个多小时的圆桌当中,Marc表示,未来5年,机器人硬件发展仍将非常重要,但同时,能够打破语义理解障碍的基础模型或其他 AI 方法也将对机器人技术产生更大的影响。不过,要想取得机器人领域真正的进步,就需要更高的可靠性和安全性,未来人们需要投入大量资源努力解决此类问题。

Marc非常不看好人形机器人行业。他认为,工业机器人已经非常成熟,而且能够商业化,目前人形机器人“在某种程度上是一种炫耀,而不是一种生产力”。

陈建宇表示,过去10年AI发展很快,从简单的图像处理,到深度学习、强化学习,再到ChatGPT技术,这对于未来“具身智能”产生很大的影响。未来几年,AI、具身智能会与人形机器人不断融合,去训练一个通用模型。他相信未来5年,我们将迎来“机器人的ChatGPT时刻”。

王鹤指出,当前 AI 大模型在机器人上仍有巨大的局限,尤其是“泛化的开瓶盖”技能还没有训练出来,但同时,这也是大模型带来了重要机会,一旦大模型涌现能力不断加强,他认为未来5年,依然有一个至少做操作任务的通用机器人机会。

熊友军表示,当前关节性能提升、高的能量和电池密度的提升非常快,使得机器人的运动控制能力、电机等方面提升非常快。未来5年,机器人关节和能量密度会持续提升。毕竟和人类相比,现在机器人的能量执行效率还是有非常大的差距。

以下是钛媒体AGI编辑对此次圆桌全文整理:

问:您能否向观众简单介绍一下您的工作:您为什么以及什么时候开始对人形机器人感兴趣的?

Alois:我从 2001 年开始担任慕尼黑大学的教授。我对人类噪音的一个方面产生了兴趣,那就是具象化,对吧?我的朋友 Pfeiffer 和我们一起从大学毕业。苏黎世退休了,不幸的是,我们坚信具象化。所以我们认为,在我们的人类类型中,智力只会在以非常自然的方式与世界相连的人类类型身体中发展。所以身体应该有同样的动力,同样的尺寸,等等。否则,就很难做到这一点,你在这里看到的 Kronos 系列机器人,左边,左下角的 Roll Boy2024 就是这种信念的结果之一。

Marc:我认为你贴出的那张图片对我回答这个问题很有帮助。如果人形机器人意味着两只胳膊、两条腿直立向前,那么直到最近我才对此感兴趣。事实上,我一直认为现在的公司注重功能性,作为一名教授,我认为功能性才是最重要的,机动性、灵巧性、感知力和智能,而外形和外观则是次要的。另一方面,如果人形机器人意味着像腿一样的动态生命,我会把它与世界互动。我一直是人形机器人的粉丝,尽管我建造的第一个机器人是弹簧单高跷的东西。我认为人形机器人的许多基本要素都在那些弹簧单高跷的东西中。确实,当我们开始建造机器人时,波士顿动力公司是直立的,有两条腿,两只胳膊。有时领先。如果你看看公众的反应,你会发现 YouTube 点击量增加了 10 倍,我非常关注这些点击量或评论,或者只是人们的态度。人们非常感兴趣。普通的非科学家,比如说,非工程师,他们对人形机器人很感兴趣,而狗惹恼机器人却得不到同样的赞誉。

熊友军:我是从读博士的时候,2000年开始做机器人的研发,当时读博士的时候,那时候更多的是做工业领域、特种领域的一些机器人,用在一些危险的环境里面,因为那时候机器人技术还是非常不成熟,但在很多特种领域和危险场景里面,是需要用机器人去完成工作了,然而那时候机器智能实际上是很差的。所以我们当时想的办法,是将机器人的智能跟人的智能结合起来,所以做了一些机器人要操作的一些事情。

但在遥控操作完成这些工作的过程中,我们发现有很多的场景,实际上用轮式的工业机械手臂是解决不了的,尤其是有时候在一些特种场景环境比较狭小,然后环境比较复杂的轮式,然后履带式实际上根本就进不去,但是人是可以进去。还有一种,是要试用很多工具去完成那些工作。

所以当时我们就觉得,如果说有微型机器人的话,实际上应该是能够提供很好的解决工具,或者一种解决方案,但是我们当时那时候也看到了日本本田ASIMO,给我们提供了很多的一些启发,所以那时候我就对人形机器人非常感兴趣。后面毕业之后,一直在做机器人相关的工作,

2012年,我跟优必选科技CEO周剑先生创立了公司,做人形机器人研发工作,去年从深圳到北京开始筹建具身智能机器人创新中心,现在也是一直在聚焦人形机器人方面的研发,主要的想法是希望说能够解决人形机器人方面的一些共性、关键的技术问题,比如本体的一些基础研发不足,其实我们现在微型机器人在本体在关键的核心器件,然后在一些传感器方面其实上有非常多要攻克的地方。另外在运动控制,实际上我们也做了非常多的运动控制的技术研发,采用深度学习强化学习的这种运动控制的方式,包括现在也用一些融神经网络的一些方式用去做运动控制,同时其实我们现在还在做关于智能方面的一些研发,比如说把用现在具身智能的方式,做一些基础性工作,比如建它的数据集,研发机器人大模型框架等。所以这就是现在我在做的一些事情。

陈建宇:其实这个兴趣是很小的时候,就一直对智能机器人非常感兴趣,我印象很深刻,刚刚兴兴说她10岁的时候,我估计也是差不多类似的时间,不过当时看的不是波士顿动力,当时关注的是ASIMO系列机器人,当时我就非常的去着迷。然后我觉得,创业这件事其实是充满了挑战性的,marc创办了波士顿动力做了40多年,其实我是非常尊敬的,就是说你没有一个发自内心的、天生热爱的话,其实很难去坚持下来的。所以对我来说,对这类机器人的热爱,我觉得某种程度上是从小就具备就拥有的。

那么真正开始做机器人其实是本科的时候。当时在学校里面,我就接触真正意义上的机器人的研究,当时接触了双足机器人,主要是做的就是捕获点步态规划相关的研究。后来,博士阶段继续做机器人,虽然不是人形机器人,但是也是相关的一些机器人的领域,控制它的学习,包括无人车和机械臂。而真正的去全力做人形机器人,是在我回国之后,然后在现在清华正式投入去做人形机器人,还孵化了星动纪元公司,如今我们已经做了最新一代、第六代机器人了,然后我们也在展会上面带来了我们机器人的实物,欢迎大家去关注。

王兴兴:大家好,我是宇树科技创始人王兴兴,刚才有提到我大概可能10岁的时候就看过marc先生在MIT实验室做的双足,还有单条腿的机器人,然后印象非常深,在09年、10年的时候,大概大一寒假,我就做过一个小的人形机器人,然后当时做的不是特别满意,然后后来的话,就在研究生期间做了XDog这款机器人,差不多在13年到15 16年,这款机器人的话又采用了比较低成本的硬件,然后运动性能非常好,可以直接实现关节的力控以及整机的力控。

后来的话,一开始我对人体机器人的技术还是跟相对来说比较悲观的,但是后来的话在2022年左右,整个的机器人、AI技术的进步,然后再加上ChatGPT出来以后,大家都看到人形机器人和AI结合的可能性,所以说我们公司又重新开始做人形机器人。说实在的,其实我真正感兴趣的并不是说人形机器人,而是新的一个智能体机器人的形态。而人形机器人可能只是说目前大家比较公认的、一个最有可能性的通用机器人和通用AI的结合体,但是这可能并不是个唯一的,我真正希望能诞生甚至更比人更高级的一个智能体形态,可以大大推动整个人类工业的变革,推动新的工业革命。

王鹤:我是北京大学计算机学院助理教授,也是北大银河通用具身智能联合实验室的主任王鹤,那么,我跟人形机器人、具身智能结缘,主要是从我在斯坦福大学开始读博的时候。那么2016年的时候,当时深度学习技术已经出来了,也应用在很多图像识别分类这些任务当中。那么当时作为一个前沿研究,我们试图去理解人类是如何把感知思考还有交互的能力融合在一起的。

所以我博士期间的第一个工作,就用一个视觉模型来看桌面上人的动作和物体的一个运动,然后推理人下一步想要什么,这是一个语言模型。

最后再用一个简单的机器人,智能的马克杯去响应人的动作,那么这个工作获得了欧洲图形学的最佳论文提名,但是我们认为它非常的不足,就是我们的一个马克杯只能在桌面上移动响应人的动作,它没有跟人交互的能力,我们的视觉只能看有限的几一种物体,那么我们的语言模型只能根据这个人跟这些桌面东西的一些动作来做简单的推理。

那么通过过去8年我们的研究,在怎么样把机器人的操作能力搞得更泛化,什么东西都能抓,都能够放置,那么还有跟现在的多模态大模型技术结合,真的明白人类想让你干什么,那么言出法随的去执行,所以去年我们就孵化了北京银河通用这家人形机器人公司,我们现在也是把视觉、语言、动作这三种不同的模态融合到大模型当中,真正的赋能人形机器人,让人形机器人能够走进千行百业、千家万户,这是我们的愿景。

问:你认为,我们今天拥有的哪些重要技术是 10 年前没有的,但对于实用的人形机器人来说却至关重要?它们在未来 5 年将如何发展?

Marc:我认为硬件开发仍将非常重要。如果我们谈论未来 5 年,毫无疑问,能够打破语义理解障碍的基础模型或其他人工智能方法将产生最大的影响。

我认为,人类可以做的就是,概括和理解他们所看到事物的含义,而目前还无法真正捕捉到这些含义。我相信,如果人工智能能够在这方面取得进展,我认为它将产生巨大的影响。

实际上,过去十年来,每个人都在计算机、传感器、感知、控制等方面取得了巨大进步。电池,我认为人们忘记了电池。虽然电池是工业时代的产物,但是它们确实非常重要。是的,所以在电机方面过去 5 年里,人们做得很好,我认为电机已经取得了长足的进步,当然,我们将看到更多。

陈建宇:我从AI的视角来讲一讲,觉得非常大的一个不同。如果按照10年前的话,其实是2014年左右,当时是DeepLearning刚刚出来不久,它其实解决了很大一部分,比如图像处理等等一些问题。

那么后面,其实有我认为两个最重要的里程碑:一个是以16年阿尔法狗为代表的深度学习,紧接着把它用在了强化学习上面,做深度强化学习,解决了一些问题;第二个是以ChatGPT为代表的大语言模型,所以这点我认为是过去10年没有的,但又对未来我们人形机器人,或者是具身智能起到非常大的决定性作用的两个因素。

那么可能在接下来的这几年时间,这两项技术会非常深度的跟人形机器人、具身智能融合起来,但他们也分别需要经过一定程度的训练,从而能训练比较通用的一个模型,那么我们也能解决更加丰富的物理世界的数据程序。那么我相信,在接下来的5年,这几项技术都能起到非常大的一个进展,我们可能会在5年内迎来“机器人的ChatGPT时刻”。

王兴兴:对过去10年最大的,还是AI技术带来的各种事情有更多的信心。我觉得除了 AI技术本身最大的点,对于人形机器人,对于整个社会共识的增加也是非常关键的,就是目前大家更加相信AI,更加相信人形机器人可以诞生更多价值,这在10年前是完全不能想象的,那时整个社会基本上对此都完全没有信心。

另外一点的话,我觉得在未来5年,总体上是肯定整个 AI 机器人、AI模型变化会非常快,因为目前的AI真的是日新月异,大家可以用AI集成技术,去搭建各种自己的模型去做训练,这整个已经变成一个非常的扁平化,以及容易操作的过程,其实很多人大家都可以参与进来,去做机器人模型并且去做训练,所以我觉得。未来5年这块的各种AI模型创新,包括更新的一些神经网络模型,包括脉冲神经网络等都有很大的一些机会。

王鹤:我觉得10年好快,10年前是2014年,其实我们已经看到inbody的AI,甚至不是一个在西方的学术界比较popular的词汇,那么过去的十年,我觉得一大技术的进展,就是我们在具身智能里头已经有一些技能实现了非常强的泛化性。

那么以我个人的研究举例,在抓取问题上,我们取得了比较长足的进步,那么我们从只能抓方块圆的这些特定形状的物体,到基于三维视觉传感器,我们可以抓不透明、不反光,也就是在深度传感器里头能完美成像的这些物体,到我们最近的技术能够预测透明、高反光、金属、吸光这些非常有挑战材质的物体,基于它去做泛化抓取操作。

那么在今天的展厅,我们都接受观众给我们的各种形状,各种材质随便堆叠乱七八糟的物体,我们的机器人都展示了非常泛化和高成功率的抓取能力,那么现在的问题是,像这样的每一个技能,大家都在分分别的去做开发,那么很多人会提问你能帮我抓水瓶,你能不能帮我把瓶盖给拧开?我非常不好意思的说,现在泛化的开瓶盖技能我们还没有训练出来,这个就是大模型能够带给我们的机会,那么大语言模型涌现,也就是这种紧急行为紧急行为,他能够在只见一次或者是第一次零次的演示的情况下,他都理解你要生成什么样的文字,我们相信未来的5年给我们的机会就是发展机器人基础大模型,它能够实现涌现能力,它吞吐足够量的数据后,有灵巧手,它能够抓能够加、能够拧,能够掰各种基本的手的各种运动能力都有了以后,他能涌现,我们给他看一个视频,他就能理解这个活怎么干,到那个时候我们真正的就有一个通用的、至少做操作任务的的机器人了,这是我认为未来5年的一个机会。

波士顿动力创始人对话国内四大AI机器人CEO:“人形机器人是炫耀而非生产力”  第1张

熊友军:我觉得这一轮的机器人技术的进步主要是由AI来驱动的。毫无疑问, AI驱动我觉得体现在几个方面。

第一个就是它人机交互性能得到了极大的提升。我记得10年前我们做人工智能、做机器人的时候的那些交互,如果说我要加语音加视觉,第成本非常高,第二个我们要做大量的研发的工作,我们需要几个博士、硕士带着一个团队,花很长的时间才能够完成一些物体识别、语音合成,自然语言理解NLP,还有甚至是TTS、语音合成等方面的一些工作,甚至包括导航,但是我觉得,现在随着技术的进步,我们现在做人形机器人的大模型,我们直接一个端到端的直接语音给指定给他,然后很快他就可以有比较好的行为输出,有很好的意图理解,然后做任务规划等。这是一方面,我觉得这一轮对人机交互、对动物的规划、对执行等方面都有巨大提升,在10年前基本上都很难去想象。

然后第二个现在的这些硬件方面也有极大的提升,体现在两个方向,第一个现在关节的性能的提升是非常快的,大家可以看到很多公司机器人可以开始去做一些非常动态的、剧烈的运动,实际上离不开关节性能的提升、高能量密度比,然后高的转速、高性能等这些技术的提升,实际上,在10年前我觉得是很难去做到的。当然了这也有运动控制能力的提升、电机的提升,现在其实也有采用更多结构设计的方式,更适合它的布局等方面都有非常大的进步,包括把腿的转成惯量、把电机往上提等等,有各种各样的结构设计的技术的变化。

另外,刚才还提到能量,其实早前我觉得10年前我们做机器人的时候,一个电池就像我们背后要背一个非常巨大的电池包能源包,而且能够持续的时间很短。但是这几年随着新能源汽车对电池技术的推动作用,其实我们看到它的电池能量密度大幅提升,我现在一个比较小的电池,可以支持比较长的时间,我觉得这是一个非常重要的技术突破。

未来,我觉得5年之后,这几个可能还是一个重大、要突破的方向,像刚才说的人机交互方面,我们希望大模型能提供更长期的任务规划,然后做意图理解等等方面,我觉得我们能只要给他一个非常模糊的指令,他就可以给我们输出我们很标准的很自然的这种交互的结果。第二方面,可能就是在规划实施任务方面是一个非常重大、要攻克的方向,我们环境会经常变,面对的是一个动态环境,然后机器人能够根据环境变化,能够实时去改变它的一些执行策略等。当然,像能量方面我觉得是一个持续要提升的,它毕竟现在能量执行效率和我们人相比,还是有非常大的一个差距。

问:大规模部署人形机器人需要完成哪些任务?

Marc:但是如果你现在从更宏观的角度来看,我刚才说了如果你想致富你现在就不会着手开公司,但是如果你想生存下去。你至少也得收支平衡。

我想这是一个更长远的计划,我认为要想取得真正的进步,你必须暂停,或者我不是说你必须暂停,我们在我的研究所暂停,让机器人更可靠的本地目标将是一件关键的事情,如果我能指出旧金山的自动驾驶汽车,他们杀死了一个人,这实际上甚至不是自动驾驶汽车的坠落。然后克鲁兹完全退出了旧金山。我知道现在还有很多事情在进行,但这在机器人领域很容易发生。因此,可靠性是一个关键因素,这是人们投入大量资源努力解决的问题之一。但这无助于解决,将我们带入下一代的更大问题。当我说我不认为每个人都必须专注于你所说的真正有用的东西时。

陈建宇:要做到大规模应用的话,有非常重要两个事情:一个是能不能找到大规模的需求,另一个能不能有我们技术,足够去实现、满足需求。

其实现在有很多零散的表演需求,如果需要真的达到max(大规模)的话,我觉得主要还是看劳动力,非常密集的一些产业,比如三个阶段,一个是工业、商用和服务。

大体我认为,技术也基本上是按照这样一个方向去成熟发展,其中我觉得给我的感受,我认为工业的话可能会比较快就能够去用上了。其实刚才Marc的报告中里面也已经展现出来了,不管是人形,还是一些轮式的机器人,在工厂搬运的这一类的环境里面,已经是达到了非常接近人类的一个节点,那么在未来,它可能会更快更强大,然后以及成本更低,达到这个时候的话,其实它的第一个大规模应用的点就到了。

王鹤:我觉得具身智能今天不能讲完全成熟,但是我们今天GPT能力搭配人形机器人,其实已经能够在很多场合干事情了。

像我们今天在展台展示了就是在一个零售的场景,那么用户可以下单,我们的机器人可以根据你的具体下单的内容,是拿一个冰红茶,还是拿一个巧克力,那么我们从货架把它取下来,同时我们也可以从地面的篮子里头把这些货不断的上到货架上,我们也可以从更大的一个仓储的料架上,抱着一箱东西放到传送带上。

这些场景其实都展示了,目前具身智能对于比较糙的活,就是抓取放置和双手抱持这样的能力已经走向成熟。

在这种情况下,我们还要问一个问题,为什么是这个人形对吧?有很多人现场问我,你们为什么要做成人形?因为你想如果货架上的一个商品掉在地上了,我的机器人得有能力去够地面这么低的东西,我的货架可能两米高,我要能够抓到两米那么高的东西,同时我还能还得来回走动,还要得有两只手才能抱住一个箱子,又有两只手又能高又能低又能够来回走,那么它基本上就把形态往人基本上非常的靠拢了,那么我们目前用的是一个轮式底盘,没有腿,那么也已经达到这样的一个能力了。那么我们认为像这样的抓取放置搬运的能力,在很多行业,比如说零售,比如说工厂,比如说一些服务的场景全都可以用起来。

所以我判断,人形机器人的大规模应用,2025年、2026年我们将见到从百台级到千台级的一个快速的增长,

王兴兴:我个人的话,总体来说,对目前整个人形机器人应用落地还是需要一些时间,但当下,包括今年和明年对一些简单场景,像特斯拉场景里面把一个电池从什么地方装到什么地方里面,这种简单的,用模仿学习能做的事情,目前的AI技术其实成功率还是做的比较高了,今年或明年可以做一些应用,包括把整个的GPT速度也提升。

但是我觉得,真正要提升人形机器人大规模应用,确实还需要更多的时间,把机器人的模型本身做得更好一点,让它更通用,基本上无论是更精细化的或者更泛用心的一些事情都可以做一起来,所以我还是希望社会大众对AI和机器人能更多一些耐心。但实际上可能中国其实还是有很多人比较心急的,我觉得还是大家可以再多给一点耐心。谢谢。

熊友军:我觉得人形经济和大规模的应用,其实上这个就涉及到一个商业化场景选择的问题,实际上,并不是说现在人形机器人不能够应用,而是说要再看什么场景。我觉得在有一些刚需的场景,或者对人不可达到的这种场景,还是有一些可以用的,尤其是这种刚性需求的,比如抢险救灾,特种的对核辐射,或者是说有毒有害气体环境等等,这些我觉得现在实际上是可以用的。

大家其实想的更多是,技术怎么去提升,然后怎么它能够让人形机器人能够快速适应更多的场景,然后把成本快速的降下来,只有这样通过一方面通过技术的提升,提高有更多工作效率,让人有更好的体验感,然后更多人愿意用它。

第二方面,就是把成本继续往下降,我觉得让大家更买得起,这个我觉得要是要想的这个方式。

另外我觉得还有一种,就是商业模式上的探索,实际上人形机器人是我觉得是一个集大成者,它基本上涵盖了机器人和人工智能的绝大部分的技术领域,然后在人体技术上的研究能够大大的推进这些技术的成熟,然后技术甚至技术的市场化,我们可以采用“沿途下蛋”方式获得这个商业的利润。通过这些其他的一些技术,人形机器人产品上孵化的其他技术商业化、产业化来推动人形机器人研究。一个典型的例子,就是我们现在有一些人形机器人公司已经在其他产品上实现盈利,然后已经实现了一个很好的商业化,这我觉得是一种非常好的模式。

问:作为技术人员,我们是否意识到有很多机器人都有道德伦理方面的顾虑——我们如何才能消除这些顾虑?

Marc:我认为,从最高层面来说,理解所有技术都涉及一些风险和机遇是很重要的。我参加了一个政府会议,但我听到许多政府的人都在谈论监管人工智能,而压倒性的感觉是关注最糟糕的结果,对吗?

比如在欧洲,来自英国一位人士在发言,让我印象深刻的是,人们几乎陷入恐慌,担心最糟糕的事情会发生,并且不惜一切代价想要阻止这种事情发生。但我认为,不利用机会的风险与让坏事发生的风险一样大。

所以我认为,正如开发人员指出的那样,我们需要找到一种平衡,当我们撰写论文时,我们会在开头列出这些内容。这些都是我们工作可能产生的巨大影响,但我们从不谈论我们的工作,可能产生的坏事是什么。

我们需要诚实和开放,更加公平地对待这个问题,但随后继续强调这种平衡,并以某种方式防止我们错过机会,我认为由于公众的恐惧,这种机会很容易发生。

陈建宇:我觉得人们对这个人形机器人、或者相应的具身智能机器人技术的担忧,其实核心来自于对自身安全性的一个担忧。

安全其实有几个不同的层次,最底层的层次是物理的安全,大家担心机器人会不会在工作的时候去伤害到人,那么这是一个层次;当然其实在它分情况,那么比如说我们刚才说的如果是工厂里面的话,其实如果我们把它跟人工作环境隔开,其实一定程度上能解决这个问题;同时,我们也需要从我们的算法硬件等等上面做的更鲁棒来去优化这个问题。

那么第二个层次,其实也是生存上面的问题,但是不是说物理层面的,那么也是不是说全人类的一个担忧,而是说有一部分人一个担忧,他担心这个会替代咱们的某一些工作,大家会有担忧,我觉得这个事情可能需要政府或者商号进行有一些引导,我们尽量的开始去做一些确实劳动力非常紧缺的这样的一些产业,比如说我们一些非常恶劣环境工业环境,或者是比如说养老等。

当然第三个层面,如果未来我们的具身智能机器人真正拥有了意识,那么这个会对人类的自我存在的价值可能产生一些担忧,我觉得这个事是更远的和更大的topic。

王兴兴:我觉得机器人的伦理道德和安全性问题,是非常重要的一件事情,而且我觉得,要希望是在场所有的人都大家需要共同去维护的一件事情,就有点像现在新能源汽车以及无人驾驶,它其实还是有很多安全性问题,并且比如说有一辆早些年新能源汽车起火了,或者有一家新能源汽车无人驾驶出了交通事故,这个对整个行业影响是非常大的,会降低普通老百姓对技术行业的认可度以及信心。

这个事情很容易发生在人形机器人和AI这个领域。所以我一直觉得。当下以及未来大家都应该在机器人安全性上,无论是出台一些规章政策,或者做一些更好的引导,或者需要全世界政府出台一些相关的政策,都共同推动整个行业的健康发展。

王鹤:所以我就从技术的角度,人形机器人它的一个面向终局的技术必然是大模型,那么其实只有大模型才可能实现非常高的通用性,把很多能力全部汇集在一起,把很多模态,从视觉感知,到语言理解,到动作执行,那么融会贯通,那么今天我们在技术上其实是有方法对大模型的行为进行限制,就是“对齐”,我们在大模型内部已经进行了深入研究,那么未来,我们会对语言模型、多模态模型进行更深入的对齐,让它不会伤害到我们的人类,并且他的技能会被局限在服务的范畴内,那么这一些是我们技术上能做的,在技术上之外,必然还需要政府社会和国际的合作。

熊友军:我觉得前面几位都说的都挺好的,我就补充一点,就是说我觉得应该是有一些行业组织或者是政府出来,更多在法律法规这方面更多的立法,包括更多的是做全社会的机器人使用、伦理道德方面的一些教育。因为我觉得,任何一个机器人也是一种工具,放在不同人的手上,它的可能有不同的使用方法,然后只有加强教育,提升大家对人工智能对人形机器人的使用,让大家相对安全角度去考虑,我觉得才是一个正确的方式。

问:您认为 5 年后人形机器人行业会发展到什么程度?哪些经济领域将率先使用它们?

Marc:不,我认为人形机器人的出现让事情变得复杂。我认为机器人在工业领域的应用将取得很大进展。我认为机器人的应用非常广泛。人们对此非常关注。正如大家所说,使机器人变得越来越好的技术确实正在日趋成熟。我认为工业将继续取得进步。

我认为人形机器人本身总体上仍然非常不成熟。所以我看不到它们。我知道你可以看看一些人形机器人公司与汽车公司合作的演示。我认为这在某种程度上是一种炫耀,而不是一种生产力。我不知道这是不是题外话。如果你看看仓库机器人,你会发现最大的挑战之一是系统集成,特别是如果它不是围绕机器人设计的全新仓库。

我认为许多仓库机器人供应商都在苦苦挣扎,因为他们需要一个系统集成商,而这个系统集成商会消耗掉太多的预算,因此很难赚钱,这是因为运营仓库的 IT 人员并不想开放他们的系统。在那里工作的人并不想改变他们现在做的一切。如果机器人可以处理每一项任务,那就意味着他们仍然需要一个人来完成任务。使用任何类型的机器人对行业来说都具有很大的复杂性。我认为这些都是重要因素。

说实话,我原本以为 Spot 会取得更大的成功,但 Spot 的推出只是一次实验。我们之所以设计 Spot,是因为它能够让你连接自己的传感器,因为我们不知道人们想要什么样的传感器。我们之所以设计 Spot,是因为它能够让你对它进行编程,因为我们不知道现在的用户们都有哪些应用程序,而我们对它们的使用方式有了更多了解,开发人员正专注于巨大机遇,因此 Spot 对人们的接受度确实产生了影响。

也许如果我们没有足够的商人,能够提前进入并评估它是什么,我们实际上是在做一个实验。也许人形机器人会有更好的记录。

王鹤:我觉得我对人形机器人的发展总体是比较乐观的,那么在未来5年,我们要完成真正的大规模应用,这件事情对于整个人形机器人仍然是一个先慢后快,其中慢的阶段,那么一个里程碑应该是——在5年的时候我们能达到万台人形机器人级别的应用。

这样的一个市场大约是对标现在商业清洁机器人。我们举个例子,在超市在万达广场在写字楼一层,我们看来回去洗地擦地的机器人,那么领先的这个市场,中国最领先的公司大约是每年出货1万台,那么他做的事情不局限做这么简单的事情,它能达到在各种场景,不管是商超还是写字楼,还是很多不同的场景进行清洁,但是当然是平面清洁。

那么,对于我们人形机器人来说,我们希望能做到一个立体操作,但是它的能力可能是局限的,我搬运我就是上货,我就是取货,对吧?

我没有更多的能力,但是我也要实现跨场景的应用,可以在超市里、可以在工厂里、可以在服务场景等等。那么能达到5年1万台的市场规模的话,我相信后面有真实世界数据的回流,那时,我们会看到人形机器人应用规模会加快,从慢时代进入快时代。

熊友军:人形机器人我对它的应用可能会更加乐观一点,其实大家看到这两年人形机器人的进步非常快,尤其在AI驱动下面,实际上在市场应用方面,你们已经可以看到国的有一些企业,包括全球企业已经开始在一些场景里面做试点应用了。

比如说在汽车厂,比如在一些商用服务场景,已经开始做试点,随着这个试点数据会形成一个飞轮的效应,所以试点进展,然后它会有更多的迭代,然后有更多数据驱动,机器人会在在一些特定的环境里面提高效率,它的速度,它的随着量的增长,它的价格会大幅的降低,这样我觉得会更快的去促进产业的应用。

我觉得今年年底,大家应该可以看到,有一部分的公司已经能够在一些比如说新能源汽车厂,比如说在一些特种领域已经开始应用,明年我觉得应该可以看到一些可能千台左右量级的出货。

问:你能在我们的年轻观众中“点燃一把火”,让他们也想成为“机器人专家”吗?他们应该怎么做?

Marc:我认为伊隆·马斯克本人凭借他的雄心和资源,可能在几年内推出10000个机器人,不一定是因为它们会直接让机器人赚钱,但看看他对电动汽车所做的一切。他们从无人相信到现在,我比这里的任何人都更加怀疑,包括我在内,到每家汽车公司都有淘汰内燃机的计划。

我认为这是一件了不起的事情。他似乎对此很认真。所以这在整个人形机器人领域都是一个真正不确定性的因素。我不确定如果他没有抓住机会,是否会有这么多人形机器人。

我认为机器人玩得越有趣,人们就越能与它们互动。我到处走走,我没有带机器人来这里,但这里有很多机器人,但我到处发表演讲,发现机器人在计划中相当无聊。你总是能吸引一群人,只要你愿意让他们与机器人互动,他们就会留下来。我认为我们做得越多,公众就会越热情。我非常欣慰,参加这次活动最令人兴奋的事情可能是有很多人说你做的工作是我十几岁时见过的,现在我正在做。我们越能展示我们的工作并激励下一代,这就会实现。

陈建宇:我的一个建议是,因为机会其实永远是留给有准备的人,那么像Maec做这个事情做了做了好几十年,然后包括我们其实台上我们几位也都是多年深耕在机器人或者相关领域,所以说,因为人形机器人它其实也是一个非常长周期的事情,同时它也包罗万象,从技术上的软件、硬件、AI再到商业、产品等等,其实各方面都有,所以说大家应该去问一问自己的内心在这一步范围内到底自己最有激情,最喜欢的最热爱的是什么?然后从此刻开始就去积累它。最后,要么等待未来,要么总有时刻你有施展自己的机会。

王兴兴:对于我觉得对于所有年轻人,包括我们其实这个时代都是非常精彩的,而且想象一下,大家也知道AI、机器人都是阶梯性发展,就像GPT没有出来之前,大家觉得语言模型没什么用,基本上是非常差,但突然就是发生了巨大进步,非常好,其实机器人、AI也会遵循这种规律,所以大家现在可能看到机器人的 AI 能力都比较弱,但实际上这是好事,为什么?因为大家都有机会去做的更好,可以真正的把这种人类目前可以预估的最伟大技术,就在当下,就在未来几年,所以这个事情都是非常值得做的,

而且,在机器人和 AI 另外一个比较适合年轻的点,它没有那么多历史包袱,不像数学领域,有几百上千年的非常天才的数学家,你一定要比他们做得好,你才可以做技术,但是当下,AI 和机器人它都非常年轻,尤其 AI 技术就最近几年的东西,所以非常适合年轻人。我一直感觉在如果在未来5年到10年或者几十年回看我们现在这个时代,所以想想这种感觉,真的非常激动人心。

波士顿动力创始人对话国内四大AI机器人CEO:“人形机器人是炫耀而非生产力”  第2张

王鹤:我觉得其实未来的15年,在我心目中会是人形机器人,从当下在产业中没有规模化应用,到可能成长到跟今天汽车的产量一个万亿市场的过程。那么在这个过程中,其实对年轻人来说,那么我觉得大家就是做好自己就可以了,因为15年之后很多工作都是跟人形机器人相关的,今天可能你负责卖车,那么15年后,你可能岗位就调到卖人形机器人对吧?今天你是班级里头的佼佼者,那么你学 AI ,那么你可能发现你的职业生涯就是围绕着进一步提升人形机器人的能力展开的,所以大家做好自己,我们一起共享光明、人形机器人的未来。

熊友军:其实我是经历过个人电脑时代,我经历智能手机时代,我经历过移动互联网的时代,现在其实我们正在经历智能汽车的时代,电动汽车的时代,我觉得下一个时代实际上就是聚生智能的时代,而聚生智能时代的典型代表其实就是人性机器人,所以我给现在的年轻人建议就是说保持野心,怀揣大梦想。

问:让我们在小组成员之间花几分钟时间讨论一下:你们想要互相问什么问题?

陈建宇:所以我想问Marc,你认为对于机器人和人工智能来说最重要的研究问题是什么,例如,如果你只能选择一个研究项目,那么你选择哪一个?

Marc:让我从侧面回答一下,这也是一种回避你的问题的方式。最后我没有展示我的最后一张幻灯片。我的最后一张幻灯片是一个展示机器人故障的视频。它展示了,我不知道它大概有 2 分钟长,可能有 25 种不同的故障。我认为故障是工作中最有趣、最有意思、最有用的部分,关注它们,然后在你的工作不工作的时候继续前进,这真的很重要。这不是研究的主题,但它是一种工作精神。所以如果我要问你们所有人这个问题的话,那就是我还没看到任何人在演讲中提到过事情无法正常运转,而且我敢肯定,单一机器人不会在不发生碰撞的情况下完成那些后空翻以及它们所做的所有很酷的事情。你喜欢碰撞吗?

王兴兴:Marc先生,很荣幸今天见到您,我其实想有好奇想问一下,您觉得对于人形机器人的手,您觉得未来几年比较合适的有几个手指,或者几个电机,这会是比较好的一个方向?

Marc:再次,我要回答一个略有不同的问题。我们研究所最近举办了一场研讨会,名为“对操纵的反向观点”。我认为灵巧性确实很重要,但基本上它并没有取得很大进展,尽管人们至少已经为此努力了 50 年。我认为我们必须以不同的方式思考,再次尝试不同的东西,就像我今天在演讲中开始的那样,也许我们需要更多的动态操纵,而不是所有的静态抓握。我认为很多学习界的人在提出他们正在学习的灵巧性的要求时对自己要求不够。他们做的事情很简单,很容易。

我认为那里是有机会的,有多少只手我不知道有多少根手指。我认为五个已经很多了。但也许有一天我会觉得更有趣的问题是手掌怎么样?我们的手掌功能非常强大,它们不仅仅是静态的块。而且你看到的几乎每个机器人手都有许多手指在做这件事,但仅此而已。

王鹤:之前我提到过,大概 15 年后,世界上会有数百万、一千万个人形机器人。如果人形机器人具有通用目的,那么人形机器人是终极体现,那么这种通用目的的终极技术是什么?对于人类噪音,您是否认为视觉、语言、动作模型,这些端到端模型是人类噪音的终极技术或方法?

Marc:我很难相信,端到端是取得进步的方法。也许最终在渐近线上端到端是正确的方法,但我认为我们知道的太多了。

说实话,我认为人们过分看重(机器)学习。我知道应该对学习持乐观态度,但如果你看看当今存在的解决方案,你会发现最好的解决方案中学习所起的作用微不足道或微不足道。当然,在波士顿动力公司,今天学习很少,尽管人们正在努力。我认为控制系统、控制理论、观察器,这些在过去 20 或 30 年建立起来的东西仍然发挥着巨大的作用。

我不想就这样把它抛弃。我希望我们能真正拥抱学习,但要把它与我们已经知道的东西结合起来,找到一种方法把它们结合起来,至少在接下来的5年或10年里,也许在渐近线上,情况会有所不同。

熊友军:我的一个问题是,Marc作为波士顿动力的创始人,您之前开发了像Atlas这样的非常令人惊奇的这种产品,但是我们前不久我们看到波士顿动力终止了这个机器的研发,然后由原来的液压驱动,转向纯电驱动的这种方式。对这方面是出于什么样的考虑?是因为成本的考虑,还是因为出于商业化的考虑?同时我还想知道,波士顿动力未来5年的一些这种计划,对商业化的一些计划。

Marc:我认为,如果你问为什么要进行转变,我认为有两个关键因素:一个是液压机器人,我喜欢液压技术,我会用液压技术制造很多机器人。我认为,建造人形机器人或类似人形机器人仍有空间,它们将继续使用液压技术,因为重量和强度等因素。

但我认为有两点。一是它们很麻烦,至少对于像 Atlas 这样的高性能机器人来说,尽管我们付出了无尽的努力,也永远无法让它们完全不漏油。当你把石油机器人放到工厂和家里时,它们就不能滴油;同时,很难找到精通液压技术的人,因为人们认为这是非常古老的东西,尽管 Atlas 在液压工作原理方面有很多创新,从服务器阀门到 HPU 液压动力装置,一直都是如此,确实有创新的东西在进行;最后,我认为电动汽车在规模上已经足够强大,它们可以参与竞争。我不想代表波士顿动力发言,尽管我是创始人之一,并且仍然是董事会成员,但我认为他们必须有自己的计划,说明未来的计划以及技术的所有细节。我想随着事情的发展,你会发现更多这方面的内容。

主持人:非常感谢。我想观众肯定会有更多问题,也许吧,但我们的时间真的不多了。所以非常感谢各位小组成员。非常感谢观众的到来和聆听。我认为这是一场非常精彩的会议,尤其是小组讨论。我对组织者的建议是,我们明年再举办一次类似的会议,然后我们可以回顾进展和未来的步骤。