机器人断网也能干活!谷歌推出离线VLA模型,这些国内公司有布局→

VLA模型,已经成为具身智能当前最热的技术趋势。

近日,谷歌推出了自身最强大的VLA(Vision-Language-Action,视觉-语言-动作)模型Gemini Robotics On-Device。据介绍,这款机器人端侧模型运行时无需依赖数据网络,可以完全在机器人设备本地离线运行,并在多种测试场景中实现了强大的视觉、语义和行为泛化能力,能理解自然语言指令,并完成拉开拉链、折叠衣物等高灵巧度任务。

具身智能领域的关键新范式,VLA让机器人拥有了将语言意图、视觉感知与物理动作编织成连续决策流的能力。记者梳理发现,今年以来,不仅谷歌、微软、Figure AI等海外公司相继发布了自己的VLA模型,银河通用、智元机器人、自变量机器人等国内机器人公司也已在这一领域有所布局。

“机器人版安卓”,50次演示即可学会新动作

今年3月,谷歌DeepMind团队首次推出了新一代专为机器人设计的AI模型Gemini Robotics,被视为“机器人版的安卓”。

这一模型基于Gemini 2.0打造,如同机器人的“大脑”,能够让机器人理解复杂环境、执行精细任务。在谷歌DeepMind展示的演示视频中,Gemini Robotics借助一台双臂机器人,能够流畅地折纸、拉拉链、把皮带安装到齿轮上。

而最新推出的Gemini Robotics On-Device,则是专为在机器人设备本地运行而优化的模型。业内人士分析称,具身智能的发展一直以来受限于对云计算资源的高度依赖,这使得机器人在网络不稳定或无网络的环境中难以独立作业。同时,模型体积庞大,在机器人有限的计算资源上也难以高效运行。

Gemini Robotics On-Device的发布,标志着具身智能从依赖云端算力向本地自主运行的重大转变,为机器人产业的落地应用开辟了新的路径,为机器人在更多场景中的应用提供可能。比如,机器人在无网络的工厂精准装配零件、在灾区废墟中自主救援,这些应用场景都离不开机器人端侧模型的部署。

据介绍,Gemini Robotics On-Device具备三大特点:一是专为灵巧操作的快速实验而设计;二能通过微调来适应新任务进一步提高性能;三是经过优化,可在本地运行并实现超低延迟推理。

此外,谷歌还推出Gemini Robotics SDK,帮助开发者评估Gemini Robotics在设备上的性能,包括在MuJoCo物理模拟器中进行测试。开发者只需50—100个演示即可完成模型评估,让机器人快速学习新技能。

VLA成“必争之地”,这些国内机器人公司也布局了

如果过去十年,机器人领域的焦点先后经历了“看得见”的视觉感知、“听得懂”的语言理解,那么在VLA模型出现之后,机器人开始走向“动得准”的第三阶段。

当下,VLA模型已逐渐成为具身智能行业的共识,被视为连接感知、语言与行为的通用架构。今年6月,在2025北京智源大会上,Physical Intelligence联合创始人兼CEO Karol Hausman表示,VLA是通往通用智能的重要基石,能够让机器人从互联网等多源数据中学习并转化为具体行动。

记者梳理发现,今年以来,不仅谷歌、微软、Figure AI等海外公司相继发布了自己的VLA模型,银河通用、智元机器人、自变量机器人等国内机器人公司也已在这一领域有所布局。

今年6月1日,银河通用正式推出自主研发的产品级端到端导航大模型TrackVLA。这是一款具备纯视觉环境感知、语言指令驱动、可自主推理、具备零样本泛化能力的具身大模型。而在一周后的2025北京智源大会上,银河通用又发布了全球首个面向零售场景的端到端VLA大模型GroceryVLA。

根据现场展示,在现场搭建的1比1还原真实商超场景中,当银河通用创始人兼CTO王鹤向搭载了GroceryVLA的机器人Galbot发出“我又热又饿,帮我拿点吃的”这一指令后,Galbot能够自主精确地移动到准确位置,在货架中为顾客选择饼干和饮料等食物,然后有序地拿取并送到顾客手中,全程无遥控操作,并且无事先采集场景数据。

今年3月,智元机器人发布了首个通用具身基座模型智元启元大模型(Genie Operator-1,简称GO-1),该模型采用了Vision-Language-Latent-Action (ViLLA) 架构,由VLM(视觉语言模型)和MoE(混合专家)组成,实现了可以利用人类视频学习,完成小样本快速泛化。目前,GO-1大模型已成功部署到智元多款机器人本体之中。

此外,智元机器人还联合香港大学推出UniVLA系统。据介绍,UniVLA是一个具备跨机器人本体、场景与任务泛化能力的通用策略学习系统。它通过构建以任务为中心的隐式动作空间,利用语言描述与视频示范进行策略学习,实现从“看视频”、“听指令”到“动手操作”的通用控制。

而作为国内唯一一家从创业第一天就选择了端到端统一大模型技术路线的公司,自变量机器人研发的WALL-A则是世界上最大规模的端到端统一具身大模型。这一模型突破了传统分层架构的噪声传递问题,支持从原始传感器信号到机器人动作的纵向统一和横向任务统一,跨任务泛化能力出色。

今年5月,自变量机器人宣布完成数亿元A轮融资,由美团战投领投、美团龙珠跟投。公司表示,本轮融资将用于持续加速全自研端到端通用具身智能大模型与机器人本体的同步迭代,以及未来多个应用场景的智慧化方案合作和落地。成立起不到一年半时间内,自变量机器人已完成7轮融资,累计融资金额超10亿元。据投资人介绍,公司所坚持的“大小脑统一的端到端大模型”路线,正是多家投资机构青睐自变量机器人的核心原因。

校对:廖胜超

文章来源于网络。发布者:火星财经,转载请注明出处:https://www.sengcheng.com/article/73686.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
火星财经的头像火星财经
上一篇 2025年6月29日 上午11:01
下一篇 2025年6月29日 上午11:01

相关推荐

  • 火箭97-99篮网 关键时刻屡失良机

    NBA常规赛中,火箭在客场以97-99惜败篮网。上半场双方难分伯仲,下半场尽管火箭一度落后,但在最后时刻曾有机会反超,最终未能如愿。赛后,火箭面临多个不利消息。 在这波四连败期间,火箭在关键时刻缺乏有效的战术安排,常常依赖于抢投三分,这种打法难以保证效率。大部分球员在这种情况下三分命中率并不高,加上失误多和防守漏洞,导致球队陷入困境,乌度卡需要对此进行反思。…

    2025年2月5日
    15900
  • 手机被撞飞后正掉在车轮下被碾压 机主:自己认栽,不能找车主赔,外卖员也找不到

    2025年1月20日,江苏宿迁,手机被外卖员撞飞后,正好掉到正在倒车的车轮下,一切巧到机主自己都笑了“自己认栽,不能找车主赔,外卖员也找不到。” 责任编辑:乔娇 TT0002

    2025年1月22日
    42800
  • 女子生娃后才知准丈夫已婚已育,起诉索赔获支持

    近日,广东深圳。据深圳市中级人民法院消息,冯某(女)与穆某(男)在朋友聚会上相识,穆某对冯某一见钟情,并展开猛烈的“恋爱攻势”。不久,两人确定恋爱关系并同居。同居期间,穆某多次与冯某承诺要与其登记结婚,并在冯某怀孕后着手准备结婚相关事宜。2022年1月,两人的孩子出生,此时冯某却意外得知穆某实际已婚已育且婚姻关系仍在持续。冯某无法接受,随即与穆某分手、分居。…

    2025年1月26日
    22700
  • 繁花回应编剧署名争议 尊重创作者权益

    近日,电视剧《繁花》被曝涉及编剧署名和健康权益等问题。9月20日,《繁花》剧组回应称,剧组尊重并支持所有创作者的合法权益,并根据他们的职责及工作内容给予恰当的相应署名。最后一集长长的片尾字幕是对两千余名工作人员的肯定和致敬。 此外,《繁花》剧组还表示将公开历时三年的前期筹备及幕后内容。

    2025年9月20日
    12200
  • 第一批返工猫狗已经在路上了 毛孩子内心OS:这年过得比人都累!

    第一批回家过年的猫狗已经在路上了:晕车汪、乖乖喵,各有各的姿态。14日,春运的大幕正式开启。众多网友发布视频,分享自家猫狗在返乡旅途中的有趣样子。 “第一批返工猫狗已经在路上了”是春节假期尾声出现的一个热门话题。主要是指随着春节假期结束,人们从老家返回城市工作,带着自家的猫狗一同返程,就好像这些猫狗也和主人一样要“返工”了! 现代社会中,宠物在人们生活中的角…

    2025年2月5日
    13100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信