ArXiv 每日论文精选 | 2026-05-25

May 25, 2026 3-minute read

arXiv • 论文阅读 • AI研究 • 每日精选 • 机器学习

📚 ArXiv 每日论文精选 | 2026-05-25

自动精选今日 ArXiv 最新 AI/ML 论文，AI 深度解读核心内容、方法、效果与评价。

1. Which Way Did It Move? Diagnosing and Overcoming Directional Motion Blindness in Video-LLMs

作者: Jongseo Lee, Hyuntak Lee, Sunghun Kim, Sooa Kim, Jihoon Chung, Jinwoo Choi
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2605.22823v1
类别: cs.CV

🔍 核心内容

发现Video-LLM存在运动方向盲视问题——即使在简单视频中判断物体左右上下运动，多数模型表现接近随机猜测。通过追踪信息流定位问题根源，并提出DeltaDirect诊断方法和MoDirect数据集。

❓ 解决的问题

Video-LLM在基本运动方向感知上存在严重缺陷，无法可靠判断物体的运动方向（左/右/上/下），这一基础感知能力的缺失限制了视频理解的真实能力。

🛠️ 方法

系统诊断运动方向信息在Video-LLM管道中的传递，发现方向信息在线性可访问但读出绑定失败；提出DeltaDirect目标函数从相邻帧特征差预测2D运动向量；构建MoDirect合成和真实基准数据集。

📊 效果

在MoDirect-SynBench上，运动方向准确率从25.9%提升至85.4%；在MoDirect-RealBench上提升21.9个百分点，同时保持标准视频理解性能不变。

🤖 AI 评价

这是一篇出色的诊断性研究，不仅发现问题，还精确定位了失败机制（方向绑定缺口）。论文展示了如何从特征分析到数据集构建再到解决方案的完整pipeline。不过合成数据上的大幅提升是否能完全泛化到真实复杂场景仍需观察。

标签: 视频理解, 视觉语言模型, 运动分析

2. Cambrian-P: Pose-Grounded Video Understanding

作者: Jihan Yang, Zifan Zhao, Xichen Pan, Shusheng Yang, Junyi Zhang, Bingyi Kang, Hu Xu, Saining Xie
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2605.22819v1
类别: cs.CV

🔍 核心内容

提出Cambrian-P，通过在视频多模态LLM中引入每帧可学习的相机姿态token和姿态回归头，将相机姿态作为轻量级监督信号增强视频理解。实验证明姿态信息显著提升空间推理能力。

❓ 解决的问题

现有视频MLLM将帧视为孤立的2D快照，忽略了相机姿态定义的空间坐标系，而人类感知的是持续的三维场景。这种空间信号的缺失限制了物理世界推理能力。

🛠️ 方法

为每帧添加可学习的相机姿态token；设计姿态回归头；采用精心设计的采样方案；在真实视频的伪标注姿态上训练，实现零成本数据增强。

📊 效果

在VSI-Bench等空间推理基准上提升4.5-6.5%；在8个额外空间/一般视频QA基准上泛化良好；在ScanNet流式姿态估计上达到SOTA；伪姿态训练进一步提升一般视频QA。

🤖 AI 评价

这篇论文的核心洞察很深刻：相机姿态是视频理解的基础信号而非锦上添花。轻量级姿态增强的设计非常优雅，数据效率很高。在多个基准上的全面验证增强了说服力。伪姿态训练的意外收益显示了方法的鲁棒性。

标签: 视频理解, 多模态, 3D视觉

3. Vector Policy Optimization: Training for Diversity Improves Test-Time Search

作者: Ryan Bahlous-Boldi, Isha Puri, Idan Shenfeld, Akarsh Kumar, Mehul Damani, Sebastian Risi, Omar Khatt…
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2605.22817v1
类别: cs.AI

🔍 核心内容

提出Vector Policy Optimization(VPO)，一种RL算法，显式训练策略预测多样化的下游奖励函数并产生多样化解决方案。VPO将奖励视为向量值而非标量，使LLM输出在不同奖励权衡上专业化的解集。

❓ 解决的问题

标准LLM后训练优化预指定的标量奖励，导致低熵响应分布，难以满足推理时搜索（如AlphaEvolve）所需的多样性。随着测试时搜索标准化，多样性优化应成为默认目标。

🛠️ 方法

将VPO设计为GRPO优势估计器的直接替代；训练LLM输出解集，其中每个解在向量奖励空间的不同权衡上专业化；利用代码生成等任务中奖励天然向量值的特性（如各测试用例正确性）。

📊 效果

在四项任务上，VPO在测试时搜索（pass@k和best@k）上匹配或超越最强标量RL基线，随着搜索预算增大差距扩大；对进化搜索，VPO模型能解决GRPO模型完全无法解决的问题。

🤖 AI 评价

这篇论文提出了一个重要的范式转变：从优化单一奖励到优化奖励空间的多样性覆盖。这对于推理时计算扩展的趋势至关重要。VPO作为GRPO的即插即用替代降低了采用门槛。但多样性训练是否会导致每个单独解的质量下降，以及如何在实际系统中平衡多样性和最优性，值得进一步研究。

标签: 强化学习, LLM训练, 推理优化

4. Tokenisation via Convex Relaxations

作者: Jan Tempus, Philip Whittington, Craig W. Schmidt, Dennis Komm, Tiago Pimentel
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.22821v1
类别: cs.LG

🔍 核心内容

本文将分词器构建重新建模为线性规划问题，提出ConvexTok算法，使用凸优化工具替代BPE和Unigram等贪心算法。该方法从全局最优角度构建词汇表，而非局部最优决策，能生成更优的分词方案。

❓ 解决的问题

现有分词算法（BPE、Unigram）是贪心算法，只考虑局部最优决策，忽略整体词汇表质量，导致分词结果次优，影响语言模型性能。

🛠️ 方法

将分词器构建形式化为线性规划问题，使用凸优化工具求解；提供最优性下界证书，可证明分词器距离最优解的差距（实验证明在常见词汇量下差距小于1%）。

📊 效果

ConvexTok在内在分词指标和语言模型的bits-per-byte(BpB)上持续提升，下游任务性能也有所改善；在常见词汇量下距离最优解不到1%。

🤖 AI 评价

这篇论文的核心创新在于将分词问题从贪心启发式转变为凸优化问题，理论严谨且实用。提供最优性下界是一个很强的理论贡献，让从业者能量化分词质量。不过在下游任务上的提升不如内在指标稳定，说明分词优化对最终任务的影响存在边际递减。

标签: NLP, 优化, 分词

5. MotiMotion: Motion-Controlled Video Generation with Visual Reasoning

作者: Lee Hsin-Ying, Hanwen Jiang, Yiqun Mei, Jing Shi, Ming-Hsuan Yang, Zhixin Shu
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.22818v1
类别: cs.CV

🔍 核心内容

提出MotiMotion框架，将运动控制视频生成重新定义为推理-生成问题。利用免训练视觉语言推理器细化主要轨迹并推断合理的次要运动，实现更自然的物体交互和行为。

❓ 解决的问题

现有运动控制图像到视频生成模型僵化地遵循用户提供的稀疏、不精确、因果不完整的轨迹，导致结果不自然或不可信，尤其缺乏对次级因果后果的建模。

🛠️ 方法

利用免训练VLM推理器细化主要轨迹并推断合理的次要运动；提出置信度感知控制方案调节引导强度，高置信度输入精确跟随，低置信度输入由生成先验修正；构建MotiBench基准数据集。

📊 效果

在MotiBench上，VLM评估和人工研究均显示MotiMotion生成的视频具有更合理的物体行为和交互，用户偏好超过现有方法。

🤖 AI 评价

将运动控制视为推理问题而非直接映射是一个有趣的范式转换。免训练VLM的使用降低了方法门槛，置信度感知控制设计巧妙。MotiBench的构建填补了交互式运动控制的评估空白。但VLM推理的计算开销和延迟可能影响实时应用。

标签: 视频生成, 运动控制, 视觉推理

作者: Wenxuan Guo, Xiuwei Xu, Yichen Liu, Xiangyu Li, Hang Yin, Huangxing Chen, Wenzhao Zheng, Jianjiang F…
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.22816v1
类别: cs.CV

🔍 核心内容

提出AwareVLN，为视觉语言导航(VLN)模型配备自感知推理机制，使智能体在端到端和数据驱动的方式下理解自身状态和任务进度。包含结构化推理模块和自动数据引擎两个关键创新。

❓ 解决的问题

现有VLN方法虽然利用VLM的推理能力进行端到端动作预测，但缺乏对智能体、指令和场景之间关系的显式可解释理解；而显式建图方法依赖额外3D传感器且阻碍大规模预训练。

🛠️ 方法

结构化推理模块培养空间和任务导向的自感知能力；自动数据引擎带进度划分功能实现有效训练；在Habitat模拟器中端到端训练，无需额外传感器。

📊 效果

在Habitat模拟器的多个数据集上显著超越之前的SOTA视觉语言导航方法；项目页面展示了详细的定性和定量结果。

🤖 AI 评价

自感知推理机制的设计很有启发性，让导航模型知道自己在哪里、完成了什么。端到端和数据驱动的特性使其可扩展性好。但模拟器到真实机器人的迁移仍是VLN领域的普遍挑战。论文在多个数据集上的全面验证增强了可信度。

标签: 视觉语言导航, 具身智能, 推理

7. Remember to be Curious: Episodic Context and Persistent Worlds for 3D Exploration

作者: Lily Goli, Justin Kerr, Daniele Reda, Alec Jacobson, Andrea Tagliasacchi, Angjoo Kanazawa
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.22814v1
类别: cs.LG

🔍 核心内容

证明3D环境中的好奇心驱动RL失败源于缺乏空间持久性和情景上下文。使用在线3D重建作为持久世界模型，智能体策略参数化为RGB观测上的序列模型维持情景上下文，实现有效探索并零样本泛化到新环境。

❓ 解决的问题

好奇心驱动RL在复杂真实感环境中效果不佳，智能体容易陷入局部循环，或因忘记已访问状态而获得重复奖励。根本原因是缺乏空间持久性和情景上下文。

🛠️ 方法

在线3D重建作为持久世界模型；策略参数化为RGB观测序列模型维持情景轨迹历史；训练时利用3D重建和序列记忆，部署时仅用RGB帧导航。

📊 效果

在HM3D上训练的好奇心驱动探索超越RL主动建图基线；零样本泛化到Gibson和AI生成世界；在下游任务（摘苹果、图像目标导航）上超越从头训练基线。

🤖 AI 评价

论文的核心贡献是诊断了好奇心驱动探索失败的根源，并给出了优雅的解决方案。持久世界模型+情景上下文的组合简单有效。部署时仅需RGB的特性极具实用价值。不过在线3D重建的计算开销在资源受限设备上可能是个挑战。

标签: 强化学习, 3D探索, 好奇心驱动

8. GesVLA: Gesture-Aware Vision-Language-Action Model Embedded Representations

作者: Wenxuan Guo, Ziyuan Li, Meng Zhang, Yichen Liu, Yimeng Dong, Chuxi Xu, Yunfei Wei, Ze Chen, Erjin Zh…
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.22812v1
类别: cs.CV

🔍 核心内容

提出GesVLA，将手势作为并行指令模态引入VLA模型。手势特征直接编码到潜在空间参与高级推理和低级动作生成，采用双VLM架构实现手势表示与动作策略的紧密耦合，提升复杂场景中的目标定位精度。

❓ 解决的问题

现有VLA系统主要依赖文本指令，难以解决复杂场景中多个相似物体的空间歧义，人机交互效率受限。

🛠️ 方法

将手势特征编码到潜在空间；双VLM架构耦合手势表示与动作策略；构建可扩展手势数据生成pipeline（将手部模型渲染到真实场景图像）；两阶段训练策略赋予手势感知和动作预测能力。

📊 效果

在多个真实机器人任务上，手势持续提高目标定位准确率和交互效率，尤其在复杂杂乱环境中；在积木操控和产品/农产品选择等实用场景中验证有效。

🤖 AI 评价

手势作为自然人机交互模态的引入非常直观且实用。将手势渲染到真实图像的数据生成方法巧妙地减少了sim-to-real视觉差距。双VLM架构设计合理，但增加了系统复杂度。论文在真实机器人上的验证很有说服力，但手势识别的鲁棒性（如不同光照、遮挡情况）未深入讨论。

标签: 机器人学习, VLA, 人机交互

9. Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving

作者: Jiahao Wang, Bo Sun, Yijing Bai, Vincent Casser, Songyou Peng, Zehao Zhu, Meng-Li Shih, Xander Masot…
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.22809v1
类别: cs.CV

🔍 核心内容

提出Sensor2Sensor，将野外单目行车记录仪视频转换为高保真多模态传感器套件（多视角相机图像和LiDAR点云）。通过4D高斯溅射重建生成配对训练数据，使用扩散架构实现生成式转换，解锁海量外部数据用于自动驾驶开发。

❓ 解决的问题

自动驾驶系统需要大规模多样化数据，但专有车队数据在规模、传感器配置和长尾场景覆盖上有限；而海量野外行车记录仪数据无法直接用于需要结构化多模态输入的ADS训练和验证。

🛠️ 方法

通过4D高斯溅射(4DGS)重建将真实AV日志转换为行车记录仪风格视频生成配对数据；使用扩散架构执行生成式转换；将互联网和行车记录仪 footage 转换为真实多模态数据格式。

📊 效果

在生成传感器数据的保真度和真实感上进行了全面定量评估；成功将挑战性野外互联网和行车记录仪 footage 转换为真实多模态数据格式，验证了实际效用。

🤖 AI 评价

这是解决自动驾驶数据瓶颈的创新方案，将海量易得但格式不兼容的野外数据转化为可用的多模态训练数据。4DGS用于生成配对数据的思路很聪明，避免了昂贵的真实配对采集。但生成数据的质量边界、与真实传感器数据的分布差异、以及在安全关键ADS中的可靠性保障仍需深入评估。

标签: 自动驾驶, 生成模型, 传感器融合

10. Integrable Elasticity via Neural Demand Potentials

作者: Carlos Heredia, Daniel Roncel
评分: ⭐⭐⭐ (7/10)
链接: http://arxiv.org/abs/2605.22820v1
类别: cs.LG

🔍 核心内容

提出ICDN（可积上下文相关需求网络），一种从需求出发的神经模型，用于多产品零售需求预测。模型学习对数需求作为对数价格的平滑函数，弹性可直接从学习到的需求曲面精确推导。

❓ 解决的问题

多产品零售需求预测中，现有方法难以获得稳定、经济意义上合理的弹性估计，特别是交叉价格效应弱识别时，预测不稳定且难以解释。

🛠️ 方法

设计ICDN架构，将对数需求建模为上下文条件化的对数价格平滑函数；利用可积性保证弹性可从需求曲面精确解析推导；在Dominick’s啤酒数据集上验证。

📊 效果

相比有向对数-对数基准，ICDN改善了样本外泛化能力；生成的弹性估计更稳定、更符合经济学直觉，尤其改善了弱识别的交叉价格效应。

🤖 AI 评价

这篇论文在经济学和机器学习的交叉领域做出了扎实贡献。可积性约束保证弹性计算的理论正确性是一个精巧的设计，对零售定价和经济学应用有实际价值。但仅限于单一数据集验证，通用性有待进一步验证。

标签: 零售预测, 经济学, 神经网络

📈 今日统计

论文总数: 10 篇
数据来源: ArXiv RSS (cs.AI, cs.LG, cs.CL, cs.CV, cs.RO)
更新时间: 2026-05-25

本报告由 AI 自动生成，仅供参考。论文观点不代表本站立场。

📚 ArXiv 每日论文精选 | 2026-05-25

1. Which Way Did It Move? Diagnosing and Overcoming Directional Motion Blindness in Video-LLMs

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

2. Cambrian-P: Pose-Grounded Video Understanding

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

3. Vector Policy Optimization: Training for Diversity Improves Test-Time Search

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

4. Tokenisation via Convex Relaxations

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

5. MotiMotion: Motion-Controlled Video Generation with Visual Reasoning

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

6. AwareVLN: Reasoning with Self-awareness for Vision-Language Navigation

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

7. Remember to be Curious: Episodic Context and Persistent Worlds for 3D Exploration

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

8. GesVLA: Gesture-Aware Vision-Language-Action Model Embedded Representations

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

9. Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

10. Integrable Elasticity via Neural Demand Potentials

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

📈 今日统计