贝索斯领投、OpenAI连续跟投这家机器人公司再融4亿美金

时间: 2024-12-02 21:44:38 |   作者: 党建专栏

  这个让一众大佬纷纷看好的 Physical Intelligence,它的核心产品是一款名为的软件,这是一个通用的机器人基础模型,旨在使用户通过简单的语言指令控制机器人,类似于与聊天助手互动的方式。

  在上周发布的论文中,Physical Intelligence 还展示了 π0 如何使机器人能够折叠衣物、清理桌子、压平盒子的技术分析等等。

  其中,π0机器人控制模型集成了一系列高科技手段,使其能够灵巧地完成复杂的任务。

  这个模型首先利用视觉-语言模型来理解图片和文字中的信息,然后通过一个特殊的动作输出系统,以很快的速度告诉机器人该如何动作。这种快速、连续的动作指令对需要精细操作的任务最重要,比如叠衣服或者装箱子。

  预训练阶段,模型会学习大量的数据,这样它就能够掌握广泛的技能和适应不一样的场景。后训练阶段,模型会针对特定的任务做调整,以提高其在这些任务上的表现。

  此外,π0还采用了一种叫做流匹配的技术,这让它可处理连续的动作,而不是单一的、离散的步骤。这种技术的应用,加上模型的混合专家架构,使得π0在预测动作时更加准确。

  总的来说,这些技术的综合应用让π0在多种机器人平台上都能够展现出色的表现,无论是在预训练后立即执行任务,还是经过特定任务的微调后。

  网友直呼:我一直相信AI机器人的能力,现在它能帮我洗衣服,我就更喜欢它了!

  不过也有网友觉得演示中的内容在特斯拉的机器人面前有点太小儿科了,不过马上遭到反驳:人家只是初创公司!

  而这也和 Physical Intelligence 的想法一致,联合创始人 Sergey Levine 就曾经表示:“据我们所知,我们正在训练的数据量比有史以来制作的任何机器人模型都要大。”

  但他还补充道:“它无论如何都不是 ChatGPT,但也许它接近 GPT-1”,表达他们的软件更接近于 OpenAI 为聊天机器人发布的首个模型GPT-1,而不是那些更先进的、为 ChatGPT 提供动力的大脑,暗示他们仍处于早期开发阶段。

  之所以Physical Intelligence能够拿到这么大的融资,原因是它和OpenAI一样,都是企图从模型与数据层面颠覆此前的技术惯性,或许将Physical Intelligence的π0与OpenAI的ChatGPT作比较,可以更直观地理解其创新和潜力。

  首先,ChatGPT的精准语义理解能力是其核心优势之一,对于π0而言,这种能力同样至关重要。

  π0一定要具有理解物理世界中的交互指令和上下文的能力,这包括但不限于视觉、语言和触觉等多种感官输入。

  通过接受大规模互联网视觉-语言预训练,并结合丰富的机器人操作数据集,π0能够熟练地执行一系列多样化的任务。这不仅彰显了π0在解读物理世界指令方面的卓越能力,也体现了其在多模态感知和任务执行上的先进性。

  其次,ChatGPT的卓越之处在于其能够将宏观问题细化为微观问题,并巧妙地整合答案。

  对于π0而言,这表示它必须将复杂的物理任务分解成一系列可操作的步骤,并依据环境的实时反馈灵活调整其行动,以确保达成预定目标。

  π0通过在广泛的机器人操作数据集上进行训练,已经能够熟练执行从简单的物体搬运到复杂的衣物整理等多样化任务,这充分体现了其在任务分解和解决方案构建方面的强大能力。

  关于这点,Physical Intelligence 的创始人 Karol 也曾说过:“我们有一个非常通用的方法,它可通过来自许多不同实施例、许多不同机器人类型的数据,并且类似于人们训练语言模型的方式。”

  最后,ChatGPT的通用性体现在其能够将人类知识迁移至语言交流中。相较之下,Physical Intelligence的通用性则表现在将互联网规模数据中学习到的深层语义知识,成功应用到物理世界的实际操作中。π0继承了这种从大规模互联网预训练中获得的丰富语义知识,并将其有效运用于实时的灵巧机器人控制,从而在知识迁移和通用性方面展现了其非凡的能力。

  值得一提的是,Physical Intelligence的一个关键特点是与物理世界的直接交互。与ChatGPT主要处理语言和信息不同,Physical Intelligence需要处理的是物理信号和实际操作,正是这一点能够准确的看出,它的野心是成为机器人行业中的「OpenAI」。

  总的来说,ChatGPT的里程碑在于其对自然语言的理解和生成能力,而Physical Intelligence之所以受到投资人重视,则在于其对物理世界的理解和操作能力。

  π0所做的,就是将构建语言模型的技术与控制和指导机器的自有方法相结合,并通过大量的机器人数据训练来实现。为了获得更多数据,该公司使用了在图像和文本上训练大脑视觉语言模型和从 AI 图像生成中借鉴的扩散建模技术。

  Physical Intelligence 成立于 2024 年,至今不到一年时间。它是一家专注于将通用AI与物理系统相结合的机器人初创公司,总部在加利福尼亚州旧金山。公司的目标是开发一种能够应用于各种机器人的基础软件,使其能够执行复杂的多步骤任务,而不再局限于特定的功能。

  公司的联合发起人兼首席执行官卡罗尔·豪斯曼(Karol Hausman)曾在谷歌DeepMind担任机器人科学家,一直专注于深度学习和机器人技术的应用,目前在斯坦福大学当客座教授。

  Karol 在慕尼黑工业大学获得机器人硕士学位,在南加州大学获得计算机科学博士学位,研究方向为感知-行动循环的重新思考,通过交互感知和学习表征来提升机器人的智能。自2018年起,担任谷歌大脑的员工研究科学家,领导机器人操作团队,并负责多个重要项目。2021年至今,担任斯坦福大学计算机科学系的兼职教授,教授深度强化学习等课程。同时也在NASA喷气推进实验室等多个顶尖研究机构担任过短期访问研究员。

  值得一提的是,在谈及自家机器人在叠衣服方面的表现时,Karol 还强调:对于机器人而言,折叠衣物是一项特别困难的任务,因为它需要对物理世界有更深入的一般性智能,尤其是在处理那些会一直在变化形态和产生褶皱的柔软物品时。

  他还提到,现有的算法还不够稳定。就像人工智能聊天机器人有时会出现一些“人类怪癖”,例如摇晃 T 恤和短裤,让它们平整地铺开。并且这些家庭服务机器人有时也会突然“崩溃”,然后做出一些令人难以置信的行为:例如它们可能会把鸡蛋塞进已经装满的纸箱,然后强行关闭纸箱,更不可思议的是一次,在整理物品时,机器人突然将盒子从桌子上扔了下去...

  联合创始人切尔西·芬(Chelsea Finn),2019年至今,Chelsea 担任斯坦福大学的助理教授,并且享有“William George and Ida Mary Hoover Faculty Fellow”的称号,她在机器人学和AI领域的研究工作得到了认可和尊重。值得一提的是,在加入斯坦福之前,她曾在 Google Brain 担任研究科学家,专注于深度学习和机器人学习算法的开发。

  联合创始人布莱恩·伊赫特(Brian Ichter)在斯坦福大学期间获得了航空航天与航天工程的硕士以及博士学位,在攻读博士学位期间,他作为研究助理参与了多个项目,开发了基于GPU的算法,用于运动规划和不确定性感知。自2018年11月到2024年3月,Brian 担任谷歌大脑的研究科学家,专注于开发高效的算法和机器学习方法,使机器人能够在复杂的现实环境中进行规划和操作。

  联合创始人拉基·格鲁姆(Lachy Groom),Lachy于2012年加入 Stripe,成为该公司的第30名员工。在 Stripe 工作期间,他参与了多个关键项目,包括支付产品的开发和全球扩展。最终担任了 Stripe Issuing 的负责人,领导团队开发用于创建、分发和管理实体及虚拟卡片的平台。在离开 Stripe 后,Lachy 热情参加天使投资,专注于早期阶段的勇于探索商业模式的公司。他通过个人的投资基金(LGF)支持多个行业,包括金融科技、气候科技和消费的人互联网等。

  2024年11月,亚马逊创始人贝索斯又领投了4亿美元,至此,短短8个月的时间,这家AI创企的估值已经飙升至24亿美元。

  值得一提的是,Physical Intelligence 的这两轮融资中 OpenAI 都有跟投,可见其对这家初创公司寄予厚望,但作为行业领头的 OpenAI 为啥不去去自己做机器人,而是转为投资其他公司呢?

  2018年OpenAI推出了Dactyl,一个类人机械手,通过强化学习算法实现了对物理物体的灵巧操控。Dactyl能够在没有特定编程的情况下,自主学习完成各种任务。

  2019年,OpenAI展示了一款单手解魔方的机器人。这款机器人经过13000小时的训练,能够在一定干扰下高效地还原魔方。同年,OpenAI发布了Roboschool,这是一个用于模拟环境中控制机器人的开源软件,旨在为研究者提供一个平台来测试和开发强化学习算法。

  对于解散的原因,OpenAI 联合发起人 Wojciech Zaremba 解释说:机器人研究面临的数据稀缺问题使得研发受阻。相比之下,其他领域(如自然语言处理)能轻松的获得更丰富的数据,从而促进更快的进展。并且随着OpenAI逐渐转向商业化,其资源和精力更多地集中于大语言模型的开发,而不是高成本的机器人研发。因此团队内部出现了对公司方向的不满和分歧,最终团队解散。

  除此之外,一些分析人士指出,相比于机器人技术,研究语言模型被认为具有更高的投资回报率和更低的风险,这使得OpenAI更倾向于将资源投入到语言模型上。

  尽管解散了机器人团队,OpenAI并未完全放弃其在机器人领域的梦想,近年来,OpenAI 开始投资与其技术路线相符的初创公司,如人形机器人公司Figure和1X Technologies,以及刚刚跟投的 Physical Intelligence。

  除了 Physical Intelligence,雷峰网(公众号:雷峰网)总结国内外还有很多专注于具身智能大模型领域的初创公司。

  例如由卡内基梅隆大学的两位教授 Deepak Pathak 和 Abhinav Gupta 在 2023 年联合创立的Skild AI,其核心竞争力在于其构建的“可扩展的机器人基础模型”。

  这一模型采用了基于Transformer的自适应架构,通过大规模数据训练,使其能适应多种机器人形式和任务。与传统机器人技术不同,Skild AI不再局限于特定任务的数据收集,而是追求一种能够泛化应用于多种场景与任务的通用智能。

  而它也在成立不到一年的时间内便获得了3亿美元的A轮融资,估值迅速攀升至15亿美元,吸引了包括杰夫·贝佐斯、软银集团和红杉资本等知名投资者的关注。

  再例如由 Ivan Poupyrev 在在2023年创建的Archetype AI,在种子轮融资中就筹集了1300万美元,主要投资者包括Venrock、亚马逊工业创新基金和日立风险投资等。

  Archetype AI 的核心技术是其创新的物理AI模型Newton,这是一个大行为模型(LBM),能够捕捉人类难以察觉的复杂和快速变化的隐藏行为模式。Newton模型融合了多模态传感器数据和自然语言,实现了对物理世界的实时感知与推理。其核心技术能力包括时间序列理解、多模态输出、实时描述和多模态摘要等,这些能力使得Newton可以大范围的应用于安全、城市管理、工程和零售等领域

  除此之外还有由Brett Adcock在2022年创办的Figure AI,这家在2024年完成了一轮6750万美元的融资,公司的估值达到了26亿美元。主要投资者包括NVIDIA、微软、亚马逊创始人杰夫·贝索斯的Explore Investments基金等。

  其核心技术在于它端到端的神经网络框架,该框架可处理多模态数据并生成语言响应和执行策略,以及视觉到行动的Transformer网络,它直接将视觉信息转换为动作指令。此外,Figure AI还专注于解决双足机器人的平衡与接触问题,这些技术的综合应用推动了人形机器人技术的发展,使其能够执行复杂动作,并在商业领域得到应用。

  例如由前Robotics Learning研究员王潜与北大计算物理博士王昊于2023年12月联合创建的自变量机器人,已完成Pre-A与Pre-A+轮融资,总金额达到亿元级。投资方包括德联资本、基石资本、啟赋资本、南山战新投,老股东九合创投持续加注。

  其核心技术是“统一具身智能大模型”,它通过端到端的完全纵向统一和任务泛化性,使得机器人能够直接从原始输入处理到最终动作输出,无需中间步骤,并能够跨任务学习通用架构,以此来实现更广泛的应用和更高的适应性。

  还有由前珞石机器人联合发起人兼CTO韩峰涛与清华大学交叉信息学院助理教授高阳于2024年2月联合创建的千寻智能(Spirit AI),在成立后的短短几个月内完成了近2亿块钱的种子轮和天使轮融资,主要由弘晖基金领投,其他投资者包括达晨创投、千乘资本、顺为资本和绿洲资本等。

  千寻智能的技术核心在于其全栈的具身智能数据利用能力,使其能够高效地从多种数据源中学习并应用到机器人技术中。团队还开发了EfficientImitate高性能模仿学习算法,大幅度的提高了模仿学习的效率和泛化能力。

  此外,千寻智能的EfficientZero算法在强化学习领域也展现出高样本效率。在硬件方面,千寻智能拥有强大的机器人运动控制系统和硬件开发能力,特别是在模型预测控制、仿生柔顺控制、动态环境操作等方面积累了深厚的经验。