西湖大学王东林团队论文:机器人需要“通古今,知未来”丨CVPR 2026
发布时间:2026-03-23 09:36 浏览量:2
HiF-VLA:一种利用运动信息建模时间,让机器人实现连续决策的视觉-语言-动作模型。
作者丨郑佳美
编辑丨岑 峰
试想一下,当机器人伸手去拿桌上的杯子,刚把杯子抬起来,又停住了,随后把它放回原位,然后再次伸手去拿。同一个动作,它重复了一遍,像是忘记了自己刚刚已经做过什么。类似的情况在真实环境中并不少见:按钮明明已经按下,却还在反复按,明明抽屉已经关好,却还在继续推。
这些失败并不是因为它“看不清”,而是因为它 缺乏一套能够模拟时空演化的 “ 世界模型 ” 。当前的视觉语言行动模型虽然能够理解图像与指令,但在连续任务中仍然只能依赖当前观测做决策,一旦任务变成长步骤流程,例如拿起物体、移动、放置再到关闭装置,就容易出现动作重复和决策中断的问题,其根本原因在于缺乏对时间的理解能力。
这一问题正在成为具身智能发展的关键瓶颈。现有方法大多基于“看到什么就做什么”的即时反应机制,在短任务中表现良好,但在长序列任务中容易出现动作不连贯和决策漂移。如何让模型不仅能感知当前状态,还能记住过去并预判未来,成为新的核心挑战。
在这样的背景下,西湖大学王东林团队提出了论文
《HiF-VLA:Hindsight, Insight and Foresight for Vision-Language-Action Models》
。研究中,HiF-VLA 不再简单依赖历史图像或未来画面预测,而是以“运动”作为时间信息的核心表达,使模型能够同时建模过去的变化、当前状态以及未来趋势,从而实现更稳定的连续决策。
这项研究的意义,不仅在于性能上的提升,更在于提出了一种新的范式,即让机器人从“被动反应”走向“边思考边行动”。在具身智能逐步走向真实世界的过程中,这种对时间的理解能力,正在成为决定系统是否真正可用的关键因素。
论文地址:
01
机器人不再「 忘动作」
在长序列任务 LIBERO-Long 上,这项研究主要测试机器人是否能够连续完成多个动作,例如拿取物体、放置以及关闭装置等。研究结果表明,HiF-VLA 在单视角条件下的成功率达到 94.4%,在多视角条件下达到 96.4%。
作为对比,当前较强的方法 OpenVLA-OFT 在单视角下为 91.0%,多视角为 94.0%。由此可以看出,这个方法在单视角下提升了 3.4 个百分点,在多视角下提升了 2.4 个百分点。
进一步来看,在 10 个具体任务中,有多个任务的成功率达到 100%,而最低的任务也达到了 76%,说明整体性能稳定,并非依赖个别任务拉高平均水平。一个重要现象是,这个方法在单视角条件下的表现已经接近甚至达到其他方法在多视角条件下的水平,这意味着其性能提升主要来源于时间建模能力,而不是依赖更多视觉信息或摄像头数量。
在 CALVIN 跨环境泛化任务中,研究在 A、B、C 三个环境中训练模型,并在未见过的 D 环境中进行测试。评价指标是连续成功完成任务的数量,也就是在不中断的情况下能够连续完成多少个步骤。结果显示,这个方法在单视角下达到 4.08,在多视角下达到 4.35,而 OpenVLA-OFT 约为 4.10,Seer 约为 4.28,RoboVLMs 约为 4.25。
可以看到,这个方法在多视角条件下取得了最高的 4.35,相比基线提升约 0.25 个任务。这个提升具有重要意义,因为这个指标一旦中间某一步失败后续任务将不再计入,因此数值越高说明模型在长时间连续决策中的稳定性越强,也体现了更好的长期规划能力。
在效率与计算成本方面,研究进一步分析了性能提升是否以计算开销为代价。结果显示,当引入基于图像的未来子目标预测时,成功率为 91.8%,但延迟增加到 115.9 毫秒,比基线慢 1.59 倍。当采用历史帧堆叠时,成功率反而下降到 90.4%,延迟上升到 229.5 毫秒,是基线的 3.15 倍,说明大量图像信息不仅带来高计算成本,还会干扰模型判断。
相比之下,这个方法在只加入未来推理时,成功率为 92.2%,延迟为 82.7 毫秒,几乎没有额外开销;只加入历史信息时,成功率同样为 92.2%,延迟为 117.7 毫秒;同时加入两者后,成功率达到 93.2%,延迟为 121.6 毫秒。整体来看,这个方法在提升成功率的同时,计算成本远低于堆叠历史帧的方法,说明使用运动信息比直接使用图像历史更加高效。
在时序长度扩展能力方面,研究逐步增加历史长度,从 4 到 8,再到 16 和 32。结果表明,当长度为 8 时性能最佳,单视角为 94.4%,多视角为 96.4%,继续增加长度反而会导致性能下降,其原因在于信息过多带来的冗余干扰。在延迟方面,传统方法的计算成本会随着历史长度线性增长,当长度为 8 时延迟增加约 4.5 倍,而这个方法的延迟基本保持稳定,仅有轻微增长,说明其在时间维度上具有更好的扩展性。
在真实机器人实验中,研究设置了多个长序列任务来验证实际效果。在按顺序按按钮任务中,基线方法的成功率为 17.4%,而这个方法提升到 34.2%,接近翻倍。在覆盖与堆叠任务中,基线为 33.3%,这个方法达到 57.9%,提升了 24.6 个百分点。
在放置任务中,基线约为 62.5%,这个方法约为 65%,提升较小但表现更加稳定。研究人员分析认为,基线方法难以判断按钮是否已经被按下,因为状态变化较为细微,而这个方法能够利用时间变化信息来识别状态转变,因此在复杂任务中表现更好。这进一步说明,引入时间信息能够显著提升机器人在长序列任务中的决策能力。
02 时间建模方法的系统性对比
在实验过程中,研究首先在数据与任务设计上进行了系统安排。在模拟环境中,采用了 LIBERO 数据集中的 10 个长序列任务,以及 CALVIN 数据集中的跨环境泛化任务。在真实机器人实验中,每个任务收集了 100 条示范数据,并在测试阶段对每个任务执行 20 次,以评估模型的稳定性和泛化能力。
在输入信息设计方面,模型同时接收三类信息,包括当前画面作为对当前状态的感知信息,历史运动作为对过去动态变化的表达,以及语言指令用于提供任务目标,从而使模型能够在时间维度和语义层面进行联合决策。
在对比实验设计中,研究团队设置了多种不同方法进行系统比较。第一种方法仅使用当前观测信息进行决策,不包含任何时间信息。第二种方法通过堆叠历史图像来引入时间信息,但这种方式存在信息冗余严重以及计算成本较高的问题。第三种方法通过预测未来图像作为子目标来引导决策,但这种方式容易产生误差,并且稳定性较差。相比之下,所提出的方法采用运动信息替代图像来表示时间变化,从而减少冗余信息并提高建模效率。
在消融实验中,研究进一步分析了不同设计选择对性能的影响。首先在历史长度方面进行实验,结果表明最优长度为 8,当长度过短时无法提供足够的信息,而长度过长则会引入冗余并影响模型判断。
其次在历史信息的使用方式上,研究比较了两种策略,一种是将历史信息直接输入视觉语言模型,此时成功率为 92.8%,另一种是将历史信息注入到决策模块中,此时成功率提升到 94.4%。这一结果说明,将历史信息直接加入视觉语言模型会影响其原有的视觉与语言理解过程,而在决策阶段引入历史信息能够更有效地发挥其作用。
03
从「看到就做」到「边想边做」
这项研究首先解决了一个核心问题,即传统模型在决策过程中往往只依赖当前观测而忽略时间信息,从而导致动作不连贯以及在长序列任务中容易失败。研究人员指出,问题的根本不在于视觉能力不足,而在于缺乏对时间的建模能力。
基于这一认识,研究提出了一个重要发现,即运动信息比图像更适合用于表示时间变化,这是因为图像中包含大量静态信息,而运动信息只保留了真正发生变化的部分,因此更加高效且更具表达力。
这一发现对机器人研究带来了直接影响,使原本从感知到动作的单向过程转变为同时考虑过去、现在与未来的决策过程,即从简单的感知到动作转变为基于过去、当前状态以及未来预测共同驱动的行动决策。
在工程价值方面,实验结果表明这个方法不仅在性能上取得了显著提升,例如成功率最高达到 96.4%,同时在计算效率上也具有优势,避免了传统方法中可能出现的三倍计算开销问题。
此外,这个方法在不同环境下表现出更强的泛化能力,并且在真实机器人实验中同样有效,说明其具有较强的实际应用潜力。
进一步来看,这项研究还推动了一种新的智能范式,从“看到就做”的视觉语言行动模型到“边想边做”的世界行动模型, HiF-VLA 改变的不仅是模型的结构设计,更是在重新定义机器人应当具备的能力边界。
过去的系统更像是被动反应的执行者,只对当前输入做出即时回应;而在这种新的范式下,机器人开始具备连续决策的能力,能够在行动中记住刚刚发生了什么,判断当前处于什么阶段,并预判接下来应该做什么。
这种变化的意义在于,机器人不再只是完成单步动作,而是能够理解一整段过程,并在过程中不断调整自己的行为。这也意味着,具身智能的发展正在从“感知驱动的反应系统”,走向“时间驱动的推理系统”。
当模型真正具备这种能力时,机器人才能在复杂、动态的真实环境中稳定工作,而不仅仅是在受控场景中完成预设任务。
04
HiF-VLA 背后的科研力量
论文的通讯作者
王东林
,现任西湖大学人工智能系副主任,是机器智能实验室(MiLAB)的创始人和负责人,同时也是西湖机器人科技(杭州)有限公司的创始人。
他本科和硕士毕业于西安交通大学电子信息工程专业,随后在加拿大卡尔加里大学获得电子与计算机工程博士学位,并在加拿大从事博士后研究工作。
之后他在美国纽约理工学院任教并晋升为副教授,2017 年回国加入西湖大学,成为工学院首批全职教师之一,并创建了机器智能实验室。同时,他还担任国家科技创新 2030 重大项目首席科学家,并入选国家人社部高层次人才计划,在国家级科研项目中承担重要角色。
在研究方向上,他长期致力于机器人学习与智能决策领域,重点关注强化学习、元学习以及机器人行为智能,目标是让机器人具备自主学习、快速适应新环境并完成复杂任务的能力。其研究不仅关注感知层面的理解,更强调从感知到决策再到行动的完整闭环,尤其是在长序列任务和真实环境中的稳定执行能力。
在学术成果方面,他已发表一百余篇论文,活跃于机器人学习和强化学习等前沿领域,并参与国际学术社区建设。他的团队是国内最早专注于机器人学习的团队之一,提出国际第一个四足机器人VLA大模型、人形机器人VLA大模型、奖励无关人类反馈强化学习。他近期合作的AAAI 2026 论文斩获最佳论文奖,同时带领研发的通用行为专家大模型 GAE 也达到人形机器人运动的国际领先水准。
参考地址:
另一位通讯作者
黄思腾
,现任阿里巴巴达摩院算法专家,博士毕业于浙江大学与西湖大学联合培养项目,在机器智能实验室完成博士研究,并由王东林教授指导。
在此之前,他于武汉大学计算机科学专业获得本科学位。在博士期间,他还在阿里巴巴通义实验室与达摩院进行长期研究实习,随后进入达摩院从事算法研究工作,整体经历贯穿学术研究与工业界实践。
在研究方向上,他主要聚焦于具身智能、多模态大模型以及高效人工智能,核心关注如何让模型同时理解图像、视频、语言以及物理世界中的动态信息,并在真实环境中进行感知、推理与生成。他的研究不仅涉及多模态理解与生成,还强调模型在数据、计算和存储等方面的效率优化,致力于构建能够在现实世界中高效运行的统一智能系统。
在学术成果方面,他已在相关领域发表三十余篇论文,涵盖计算机视觉、多模态学习与机器人方向,并活跃于顶级国际会议和期刊。同时,他参与多个具身智能与多模态模型方向的研究工作,包括视觉语言行动模型及统一世界模型等,代表性工作涉及 HiF-VLA、RynnVLA 系列以及 WorldVLA 等框架,推动了机器人在长序列任务与真实环境中的能力提升。
参考地址: