ArXiv 每日论文精选 | 2026-05-17

May 17, 2026 3-minute read

arXiv • 论文阅读 • AI研究 • 每日精选 • 机器学习

📚 ArXiv 每日论文精选 | 2026-05-17

自动精选今日 ArXiv 最新 AI/ML 论文，AI 深度解读核心内容、方法、效果与评价。

1. ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both

作者: Ziyu Guo, Rain Liu, Xinyan Chen, Pheng-Ann Heng
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2605.15198v1
类别: cs.AI

🔍 核心内容

提出ATLAS框架，通过一个离散’功能token’同时实现agentic推理和latent视觉推理。每个功能token关联内部化视觉操作，无需视觉监督，仍为标准tokenizer词表中的token，可通过next-token prediction生成。避免了生成冗长中间视觉内容，同时兼容标准SFT和RL训练。提出Latent-Anchored GRPO（LA-GRPO）解决RL中功能token稀疏问题，通过静态加权辅助目标锚定功能token。

❓ 解决的问题

视觉推理中，直接生成图像计算昂贵且架构复杂；agentic方法有外部执行上下文切换延迟；latent方法缺乏任务泛化且难以用自回归并行化训练。需要结合两者优势同时规避局限。

🛠️ 方法

设计功能token作为agentic操作和latent视觉推理的统一单元；功能token可在标准词表中通过next-token prediction生成，无需架构修改；引入LA-GRPO用静态加权辅助目标稳定稀疏功能token的RL训练。

📊 效果

在挑战性基准上取得优越性能，同时保持清晰可解释性。LA-GRPO通过更强梯度更新稳定训练，为视觉推理提供了新的范式。

🤖 AI 评价

ATLAS是视觉推理领域极具创新性的框架，巧妙地将agentic和latent推理统一在单一token机制下，避免了架构修改和视觉监督需求。LA-GRPO解决了RL训练中稀疏token的核心难题。该工作保持了标准自回归训练的兼容性，具备良好的可扩展性。潜在局限是功能token的内部化操作可能限制复杂视觉操作的表达能力。整体来说是推动视觉推理走向实用化的重要一步。

标签: 视觉推理, 功能token, 强化学习, LA-GRPO, 多模态

2. VGGT-$Ω$

作者: Jianyuan Wang, Minghao Chen, Shangzhan Zhang, Nikita Karaev, Johannes Schönberger, Patrick Labatut, …
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2605.15195v1
类别: cs.CV

🔍 核心内容

VGGT-Omega是VGGT的大规模扩展版本，证明前馈重建模型质量随模型和数据规模可预测提升。引入架构改进提高训练效率：单一稠密预测头多任务监督、移除昂贵高分辨率卷积层；使用register聚合场景信息为紧凑表示，register attention限制帧间信息交换仅通过register进行，部分替代全局attention。训练仅使用约30%的GPU内存，支持15倍有监督数据和大量无标注视频数据训练。

❓ 解决的问题

前馈重建模型虽有竞争力，但训练效率和大规模扩展受限。高分辨率卷积层昂贵，全局attention导致GPU内存消耗大，难以利用大规模数据进行训练。静态和动态场景重建需要不同的处理能力。

🛠️ 方法

简化架构：单一稠密预测头+多任务监督，移除高分辨率卷积层；引入register机制聚合场景信息；register attention限制帧间信息交换，降低内存占用；高质量动态场景数据标注流程；自监督学习协议利用无标注视频。

📊 效果

静态和动态场景重建多基准上取得强结果；Sintel相机估计精度比之前最佳提升77%；学习到的register可改善视觉-语言-动作模型并支持与语言对齐。

🤖 AI 评价

VGGT-Omega是3D重建领域的重要规模扩展工作，证明了重建模型随规模提升的可预测性。register attention的引入在降低内存的同时保持性能，是巧妙的架构创新。77%的精度提升令人印象深刻。 learned registers与VLA模型和语言对齐的潜力表明重建可作为空间理解的可扩展代理任务。局限是规模扩展需要大量计算资源，对学术界复现构成挑战。项目页面展示了丰富的可视化结果。

标签: 3D重建, 前馈模型, 动态场景, 规模扩展, register机制

3. EntityBench: Towards Entity-Consistent Long-Range Multi-Shot Video Generation

作者: Ruozhen He, Meng Wei, Ziyan Yang, Vicente Ordonez
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.15199v1
类别: cs.AI

🔍 核心内容

提出了EntityBench基准测试，用于评估长程多镜头视频生成中的实体一致性。包含140个片段（2,491个镜头），涵盖简单/中等/困难三级难度，最多50个镜头、13个跨镜头角色、8个地点、22个物体。配套三支柱评估体系解耦镜头内质量、提示词遵循度和跨镜头一致性，并带有 fidelity gate 确保只有准确的实体外观才进入跨镜头评分。基线方法EntityMem采用持久记忆库存储已验证的实体视觉参考。

❓ 解决的问题

多镜头视频生成中，角色、物体和地点在长序列跨镜头间保持一致性非常困难。现有评估使用独立生成的提示集，实体覆盖有限，一致性度量简单，难以标准化比较不同方法。

🛠️ 方法

构建大规模真实叙事媒体派生基准，显式标注每镜头实体调度；设计三支柱评估套件解耦不同维度；提出EntityMem基线，在生成前将已验证的实体视觉参考存入持久记忆库。

📊 效果

跨镜头实体一致性随重现距离急剧下降；显式逐实体记忆获得最高角色保真度（Cohen’s d = +2.33）和实体在场率。代码和数据已开源。

🤖 AI 评价

EntityBench填补了长程视频实体一致性评估的空白，真实叙事来源和显式实体调度使其极具实用价值。三支柱评估设计科学，fidelity gate避免了虚假一致性分数。EntityMem证明显式记忆对长程一致性的关键作用。局限在于仅作为评估基准和基线，未探索更复杂的记忆机制与生成模型结合。整体来说是视频生成领域重要的评估基础设施工作。

标签: 视频生成, 多镜头一致性, 基准测试, 实体一致性, 记忆机制

4. RefDecoder: Enhancing Visual Generation with Conditional Video Decoding

作者: Xiang Fan, Yuheng Wang, Bohan Fang, Zhongzheng Ren, Ranjay Krishna
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.15196v1
类别: cs.LG

🔍 核心内容

提出RefDecoder，一种参考条件化的视频VAE解码器。观察到潜扩散模型的去噪网络重度条件化但解码器通常无条件，导致细节丢失和与输入图像不一致。通过reference attention将高保真参考图像信号直接注入解码过程，轻量级图像编码器将参考帧映射为细节丰富的高维token，在每个解码器上采样阶段与去噪视频潜token共同处理。

❓ 解决的问题

潜扩散模型中，去噪网络重度条件化但解码器通常无条件，这种架构不对称导致相对于输入图像的细节显著丢失和不一致。视频生成中保持参考帧的结构完整性是一大挑战。

🛠️ 方法

设计RefDecoder参考条件化视频VAE解码器；通过reference attention注入参考图像信号；轻量级图像编码器生成高维token；在多个不同解码器骨干（Wan 2.1、VideoVAE+）上验证，可直接替换现有系统无需额外微调。

📊 效果

在Inter4K、WebVid和Large Motion重建基准上比无条件基线提升高达+2.1dB PSNR；VBench I2V基准上主体一致性、背景一致性和整体质量全面提升；泛化到风格迁移和视频编辑等任务。

🤖 AI 评价

RefDecoder解决了视频生成中一直被忽视的解码器条件化问题，架构简洁且即插即用是其最大优势。无需微调即可提升现有系统性能，实用性极高。+2.1dB PSNR提升显著。局限在于主要针对I2V和重建任务，对纯文本到视频生成的直接增益尚不明确。reference attention机制是否会引入额外的计算开销也需要权衡。总体来说是对视频VAE解码器的重要改进。

标签: 视频生成, VAE解码器, 条件化解码, 图像到视频, 即插即用

5. Aligning Latent Geometry for Spherical Flow Matching in Image Generation

作者: Tuna Han Salih Meral, Kaan Oktay, Hidir Yesiltepe, Adil Kaan Akan, Pinar Yanardag
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.15193v1
类别: cs.CV

🔍 核心内容

针对潜流匹配中噪声和VAE潜变量都集中在薄球壳的问题，提出将球面几何对齐引入流匹配。将潜token分解为径向和角向分量，通过组件交换探针证明解码的感知和语义内容主要由方向携带。将数据潜变量投影到固定token半径，用高斯噪声的径向投影作为球面先验，冻结编码器微调解码器，用球面线性插值替代线性插值。生成的测地线路径始终保持在球面上，速度目标纯为角向。

❓ 解决的问题

潜流匹配通常沿直线路径传输高斯噪声到VAE潜变量，但两个端点都集中在薄球壳中，欧几里得弦会离开球壳，即使预处理对齐半径也无法避免。这种几何不对齐可能导致次优生成质量。

🛠️ 方法

分解潜token为径向和角向分量；通过实验验证方向携带主要语义信息；将数据潜变量投影到固定半径作为球面先验；冻结编码器微调解码器适应新先验；用球面线性插值(SLERP)替代线性插值，确保路径始终在球面上。

📊 效果

在不同图像tokenizer下一致提升class-conditional ImageNet-256 FID；不改变扩散架构；无需辅助编码器或表示对齐目标。

🤖 AI 评价

这项工作从几何视角重新审视了潜流匹配的基础假设，揭示了一个深刻但长期被忽视的洞见——VAE潜空间具有球面结构。球面流匹配是对现有方法的理论优雅改进，不修改架构且效果一致。冻结编码器仅微调解码器的策略务实且高效。局限在于目前仅在ImageNet-256上验证，在更大规模文本到图像模型上的适用性有待探索。总体来说是对流匹配理论的重要补充。

标签: 流匹配, 球面几何, 图像生成, VAE潜空间, 理论分析

6. RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO

作者: Yanzuo Lu, Ronglai Zuo, Jiankang Deng
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.15190v1
类别: cs.CV

🔍 核心内容

提出RAVEN（实时自回归视频外推网络），一种训练时测试框架，将自回归rollout重新打包为干净历史端点和噪声去噪状态的交错序列，对齐训练attention与推理时外推。同时提出CM-GRPO（一致性模型群体相对策略优化），将一致性采样步骤重构为条件高斯转移，直接对该核应用在线RL，避免先前流模型RL中采用的Euler-Maruyama辅助过程。

❓ 解决的问题

因果自回归视频扩散模型支持实时流式生成，但从双向教师蒸馏时存在训练历史分布与推理历史分布的持续差距，限制长时程生成质量。流模型RL通常依赖Euler-Maruyama辅助过程，效率不高。

🛠️ 方法

RAVEN重新打包自rollout为交错序列，允许下游块损失监督未来预测所依赖的历史表示；CM-GRPO将一致性采样重构为条件高斯转移，直接应用在线RL到该核，避免辅助过程。

📊 效果

在质量、语义和动态程度评估上超越近期因果视频蒸馏基线；CM-GRPO与RAVEN结合提供进一步提升。

🤖 AI 评价

RAVEN和CM-GRPO是视频生成领域两个互补的贡献。RAVEN的训练时测试框架巧妙地解决了分布偏移问题，是因果视频模型走向实用的关键一步。CM-GRPO为流模型RL提供了更直接的优化路径，避免Euler-Maruyama的近似误差。两者结合效果显著。局限在于主要针对视频外推场景，对更广泛的视频生成任务的适用性需要更多验证。整体来说推动了实时流式视频生成的边界。

标签: 视频外推, 自回归生成, 一致性模型, 强化学习, 流式生成

7. FutureSim: Replaying World Events to Evaluate Adaptive Agents

作者: Shashwat Goel, Nikhil Chandak, Arvindh Arun, Ameya Prabhu, Steffen Staab, Moritz Hardt, Maksym Andri…
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.15188v1
类别: cs.AI

🔍 核心内容

构建FutureSim基准，通过重放真实世界事件按时间顺序到达的方式来评估AI agent在开放动态环境中的适应能力。Agent在知识截止日期之外预测世界事件，与按时间顺序到达的真实新闻文章和随模拟期间解析的问题交互。评估前沿agent在三个月（2026年1-3月）内预测世界事件的能力。最佳agent准确率仅25%，许多agent的Brier技能分数比不做预测还差。

❓ 解决的问题

AI agent越来越多部署在需要随新信息到达而适应的动态开放环境中，但缺乏高效测量这种能力的真实用例评估方法。现有基准多为静态或短程，无法反映真实世界中长期适应的复杂性。

🛠️ 方法

构建基于真实世界事件重放的grounded simulation；按时间顺序提供真实新闻文章和问题解析；在agent原生harness中评估；通过消融实验研究长程测试时适应、搜索、记忆和不确定性推理等方向。

📊 效果

前沿agent能力存在明显分层，最佳准确率25%；许多agent表现不如不做预测；为长程开放适应的AI进展测量提供了现实基础。

🤖 AI 评价

FutureSim是AI评估领域的重要基准，其基于真实世界事件重放的设计极具创新性和现实性。揭示前沿agent在长程开放适应上的薄弱（25%准确率）是警醒性的发现。该基准为测试时适应、搜索、记忆和不确定性推理等新兴研究方向提供了现实试验场。局限在于仅覆盖三个月窗口，更长时程的评估有待扩展。结果可能受新闻领域限制。总体来说对推动agent评估走向真实世界复杂场景有重要贡献。

标签: AI评估, 自适应agent, 开放环境, 真实世界模拟, 基准测试

8. Articraft: An Agentic System for Scalable Articulated 3D Asset Generation

作者: Matt Zhou, Ruining Li, Xiaoyang Lyu, Zhaomou Song, Zhening Huang, Chuanxia Zheng, Christian Rupprech…
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.15187v1
类别: cs.CV

🔍 核心内容

提出Articraft，利用LLM自动生成关节式3D资产的agentic系统。将生成关节式3D资产问题转化为编写构建程序的问题。LLM在领域特定SDK上编写代码，定义部件、组合几何、指定关节并编写测试验证结果。Harness暴露受限工作空间和接口，验证资产并返回结构化反馈，使LLM不被URDF文件编写等细节分散注意力。生成Articraft-10K数据集，超过10K个关节式资产跨越245个类别。

❓ 解决的问题

理解关节式3D物体的学习瓶颈在于缺乏大规模多样化数据集。手动创建这类资产耗时费力，现有生成方法质量和多样性不足。需要自动化、可扩展的关节式3D资产生成方案。

🛠️ 方法

将问题转化为程序生成；设计领域特定SDK帮助LLM有效生成；构建harness提供受限工作空间、资产验证和结构化反馈循环；LLM迭代改进直到通过验证。

📊 效果

比最先进的关节式资产生成器和通用编程agent产生更高质量资产；Articraft-10K包含10K+资产，245个类别；在关节式资产模型训练和机器人仿真、VR等下游应用中有用。

🤖 AI 评价

Articraft巧妙地将关节式3D资产生成问题转化为LLM编程问题，通过领域特定SDK和验证harness实现了高质量、可扩展的生成。这种agentic代码生成范式比直接生成3D模型更可控且易于验证。Articraft-10K数据集对机器人学和VR社区是宝贵资源。局限在于生成资产的视觉真实感可能不如优化方法，且依赖LLM的编程能力。SDK设计的通用性也需要更多验证。总体来说是为3D资产生成开辟了新路径的扎实工作。

标签: 3D资产生成, 关节式物体, LLM编程, agentic系统, 数据集构建

9. VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction

作者: Kaixin Zhu, Yiwen Tang, Yifan Yang, Renrui Zhang, Bohan Zeng, Ziyu Guo, Ruichuan An, Zhou Liu, Qizhi…
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.15186v1
类别: cs.AI

🔍 核心内容

提出VGGT-Edit，前馈式文本条件原生3D场景编辑框架。引入深度同步文本注入，将语义引导与骨干网络的空间姿态对齐，确保稳定的指令grounding。语义信号由残差变换头处理，直接预测3D几何位移来变形场景同时保持背景稳定。用多项目标函数监督，强制几何精度和跨视图一致性。构建DeltaScene Dataset，通过自动化流程和3D一致性过滤确保真值质量。

❓ 解决的问题

前馈3D重建模型对静态场景感知强，但难以响应动态人类指令，限制交互应用。现有编辑方法依赖2D-lifting策略，独立编辑各视图再提升回3D空间，导致纹理模糊和几何不一致，2D编辑缺乏跨视点保持结构的空间感知。

🛠️ 方法

深度同步文本注入对齐语义与空间姿态；残差变换头直接预测3D几何位移进行场景变形；多项目标函数监督几何精度和跨视图一致性；自动化3D一致性过滤构建大规模数据集。

📊 效果

大幅超越2D-lifting基线，产生更锐利的物体细节、更强的多视图一致性；推理速度接近即时。

🤖 AI 评价

VGGT-Edit解决了前馈3D编辑的核心难题——如何在保持空间一致性的同时实现文本驱动的动态编辑。深度同步文本注入和残差变换头是巧妙的设计，直接操作3D几何而非2D-lifting避免了不一致性。DeltaScene数据集的构建也为该领域提供了重要资源。局限在于目前主要展示物体编辑，更复杂的场景级编辑（如光照、材质变化）有待探索。推理速度接近即时是实用性的重要保障。整体来说是3D编辑领域的重要进展。

标签: 3D场景编辑, 前馈模型, 文本驱动, 残差场, 多视图一致性

10. Quantitative Video World Model Evaluation for Geometric-Consistency

作者: Jiaxin Wu, Yihao Pi, Yinling Zhang, Yuheng Li, Xueyan Zou
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.15185v1
类别: cs.AI

🔍 核心内容

提出PDI-Bench（Perspective Distortion Index），定量评估生成视频中几何一致性的框架。通过分割和点跟踪（SAM 2、MegaSaM、CoTracker3）获取物体中心观测，通过单目重建提升到3D世界坐标，计算捕捉三个失效维度的投影几何残差：尺度-深度对齐、3D运动一致性、3D结构刚性。构建PDI-Dataset覆盖多样场景，专门用于stress这些几何约束。

❓ 解决的问题

生成视频模型作为隐式世界模型被越来越多研究，但评估其是否产生物理上合理的3D结构和运动仍具挑战。现有评估严重依赖人类判断或学习评分器，主观且对几何失效诊断能力弱。

🛠️ 方法

PDI-Bench通过分割和点跟踪获取物体观测；单目重建提升到3D世界空间；计算投影几何残差量化三个几何失效维度；构建专门数据集stress几何约束。

📊 效果

在SOTA视频生成器上揭示了一致的几何特定失效模式，这些模式未被常见感知度量捕捉；为物理基础的视频生成和世界模型提供诊断信号。

🤖 AI 评价

PDI-Bench填补了生成视频几何一致性定量评估的重要空白。将2D跟踪提升到3D空间再计算几何残差的思路清晰且可复现。三个失效维度的分解提供了细粒度的诊断能力。揭示SOTA模型的几何失效模式是警醒性的发现。局限在于依赖单目重建的精度，可能对复杂动态场景有误差累积。数据集规模和多样性有待扩展。总体来说为视频世界模型评估提供了重要的几何维度，是推动物理合理视频生成的关键基础设施。

标签: 视频评估, 几何一致性, 世界模型, 3D重建, 定量基准

📈 今日统计

论文总数: 10 篇
数据来源: ArXiv RSS (cs.AI, cs.LG, cs.CL, cs.CV, cs.RO)
更新时间: 2026-05-17

本报告由 AI 自动生成，仅供参考。论文观点不代表本站立场。