📚 ArXiv 每日论文精选 | 2026-05-18
自动精选今日 ArXiv 最新 AI/ML 论文,AI 深度解读核心内容、方法、效果与评价。
1. ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both
作者: Ziyu Guo, Rain Liu, Xinyan Chen, Pheng-Ann Heng
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2605.15198v1
类别: cs.AI
🔍 核心内容
提出ATLAS框架,使用单个离散功能token同时作为代理操作和潜在视觉推理单元。每个功能token关联内部化视觉操作,无需视觉监督,可通过next-token预测生成。引入Latent-Anchored GRPO(LA-GRPO)解决RL中功能token稀疏问题。
❓ 解决的问题
视觉推理的现有方法各有缺陷:直接生成图像计算昂贵;代理推理有上下文切换延迟;潜在推理缺乏任务泛化且难以自回归并行训练。需要结合两者优势同时规避局限。
🛠️ 方法
设计功能token作为代理操作和潜在推理单元,保持标准tokenizer词汇兼容性。避免生成冗长中间视觉内容,兼容标准SFT和RL训练。LA-GRPO通过静态加权辅助目标锚定功能token,提供更稳定的梯度更新。
📊 效果
在挑战性基准测试中实现优越性能,同时保持清晰的可解释性。LA-GRPO稳定了功能token的RL训练,证明单个token可以高效编码复杂视觉操作。
🤖 AI 评价
ATLAS是一个优雅的统一框架,巧妙地将代理推理和潜在推理合二为一。功能token的设计极具创新性,既避免了生成完整图像的计算开销,又保留了代理操作的灵活性。LA-GRPO解决了RL训练中的稀疏性问题。该方法对视觉推理研究具有范式转变意义,可扩展性强且训练友好。
标签: 视觉推理, 功能token, 强化学习, 多模态
2. VGGT-$Ω$
作者: Jianyuan Wang, Minghao Chen, Shangzhan Zhang, Nikita Karaev, Johannes Schönberger, Patrick Labatut, …
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2605.15195v1
类别: cs.CV
🔍 核心内容
提出VGGT-Ω,大幅改进前馈重建模型的准确性、效率和动静场景能力。通过架构简化(单一密集预测头、移除高分辨率卷积层)、寄存器聚合场景信息、寄存器注意力限制帧间信息交换,训练效率提升,可使用15倍监督数据和大量无标签视频。
❓ 解决的问题
前馈重建模型如VGGT虽已与优化方法竞争,但质量和效率仍有提升空间。训练大规模模型需要解决GPU内存限制和动态场景数据标注问题。
🛠️ 方法
简化架构使用单一密集预测头与多任务监督,移除昂贵高分辨率卷积层。使用寄存器聚合场景信息为紧凑表示,引入寄存器注意力限制帧间信息交换至寄存器,部分替代全局注意力。训练内存降至predecessor的30%。
📊 效果
在静态和动态场景多个基准上实现强劲结果,Sintel相机估计精度较前最优提升77%。学习的寄存器可改善视觉-语言-动作模型并支持与语言对齐。重建可作为空间理解的可扩展代理任务。
🤖 AI 评价
VGGT-Ω代表了前馈3D重建的重大进步。架构简化与寄存器机制的设计非常巧妙,在大幅降低内存占用的同时提升性能。77%的精度提升令人印象深刻。特别值得注意的是学习到的寄存器可迁移至VLA模型,说明重建作为空间理解代理任务的潜力。项目页面展示了良好的工程实践。
标签: 3D重建, 前馈模型, 动态场景, 视觉-语言-动作
3. EntityBench: Towards Entity-Consistent Long-Range Multi-Shot Video Generation
作者: Ruozhen He, Meng Wei, Ziyan Yang, Vicente Ordonez
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.15199v1
类别: cs.AI
🔍 核心内容
提出EntityBench基准测试,包含140个剧集(2491个镜头)的真实叙事媒体数据,用于评估多镜头视频生成中的实体一致性。同时提出EntityMem基线方法,使用持久记忆库存储验证后的实体视觉参考,在生成长序列视频时保持角色、物体和地点的一致性。
❓ 解决的问题
多镜头视频生成中,现有评估使用独立生成的提示集,实体覆盖有限,一致性指标简单,难以标准化比较。跨镜头保持角色、物体和地点一致性仍是挑战,尤其在长达50个镜头的序列中。
🛠️ 方法
构建EntityBench基准,包含三层难度(易/中/难),追踪最多50个镜头、13个跨镜头角色、8个地点、22个物体的实体调度。设计三支柱评估套件:镜头内质量、提示对齐度、跨镜头一致性。提出EntityMem记忆增强生成系统,在生成前存储验证的实体视觉参考。
📊 效果
跨镜头实体一致性随重现距离急剧下降。EntityMem在角色保真度上表现最优(Cohen’s d = +2.33),在评估方法中实体出现率最高。构建了大规模标准化基准测试。
🤖 AI 评价
这是视频生成评估领域的重要贡献。EntityBench填补了长程多镜头一致性评估的空白,三层难度设计科学合理。EntityMem的显式记忆机制简单有效。创新点在于将实体一致性从单一维度扩展为角色/物体/地点三维追踪,并提供真实叙事数据源。对视频生成标准化评估有里程碑意义。
标签: 视频生成, 多镜头一致性, 基准测试, 实体追踪
4. RefDecoder: Enhancing Visual Generation with Conditional Video Decoding
作者: Xiang Fan, Yuheng Wang, Bohan Fang, Zhongzheng Ren, Ranjay Krishna
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.15196v1
类别: cs.LG
🔍 核心内容
提出RefDecoder,一种参考条件化的视频VAE解码器,通过参考注意力机制将高保真参考图像信号注入解码过程。轻量级图像编码器将参考帧映射为高维token,在每个解码器上采样阶段与去噪视频潜在token共同处理。
❓ 解决的问题
潜在扩散模型的解码器通常是无条件的,而去噪网络是重度条件化的,这种架构不对称导致相对于输入图像的细节丢失和不一致性。视频生成中解码器需要同等条件化以保持结构完整性。
🛠️ 方法
在VAE解码器中注入参考图像信号,使用参考注意力机制。轻量级图像编码器生成细节丰富的高维token,与视频潜在token在解码器各上采样阶段共同处理。可直接替换到现有视频生成系统无需额外微调。
📊 效果
在多个解码器主干(Wan 2.1和VideoVAE+)上实现一致改进,在Inter4K、WebVid和Large Motion重建基准上相比无条件基线提升多达+2.1dB PSNR。VBench I2V基准上主题一致性、背景一致性和整体质量全面提升。
🤖 AI 评价
RefDecoder是一个实用且高效的改进方案,解决了扩散模型中编码器-解码器不对称的痛点。即插即用的特性使其具有很强的工程价值。在多个基准上的全面提升证明了方法的普适性。此外对风格迁移和视频编辑的泛化能力拓展了应用范围。这是一个聚焦具体技术问题、解决方案简洁有效的优秀工作。
标签: 视频生成, VAE解码器, 图像到视频, 扩散模型
5. RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO
作者: Yanzuo Lu, Ronglai Zuo, Jiankang Deng
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.15190v1
类别: cs.CV
🔍 核心内容
提出RAVEN,一种训练时测试框架,将自展卷重新打包为干净历史端点和噪声去噪状态的交错序列,对齐训练注意力与推理时外推。进一步提出Consistency-model GRPO(CM-GRPO),将一致性采样步骤重构为条件高斯转移并直接应用在线RL。
❓ 解决的问题
因果自回归视频扩散模型支持实时流式生成,但从双向教师蒸馏的生成器存在训练与推理历史分布差距,限制长程生成质量。流模型RL公式中采用的Euler-Maruyama辅助过程不够直接。
🛠️ 方法
RAVEN将自展卷重新打包为交错序列,允许下游块损失监督未来预测依赖的历史表示。CM-GRPO将一致性采样步骤重构为条件高斯转移核,直接应用在线RL,避免Euler-Maruyama辅助过程。
📊 效果
RAVEN在质量、语义和动态程度评估上超越近期因果视频蒸馏基线。CM-GRPO与RAVEN结合后提供进一步提升。实现了实时自回归视频外推的先进性能。
🤖 AI 评价
RAVEN+CM-GRPO是视频外推领域的强有力组合。训练时测试框架巧妙解决了分布偏移问题,这是因果生成模型的经典难题。CM-GRPO对一致性模型应用RL的方式具有方法论创新。实验结果全面且令人信服。对实时视频生成应用(如直播、视频会议)有重要价值。
标签: 视频外推, 自回归生成, 一致性模型, 强化学习
6. FutureSim: Replaying World Events to Evaluate Adaptive Agents
作者: Shashwat Goel, Nikhil Chandak, Arvindh Arun, Ameya Prabhu, Steffen Staab, Moritz Hardt, Maksym Andri…
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.15188v1
类别: cs.AI
🔍 核心内容
提出FutureSim评估框架,通过重放真实世界事件(新闻文章到达和问题随时间解决)构建有根据的模拟,评估AI智能体在动态开放环境中的适应能力。在2026年1-3月期间测试前沿智能体预测世界事件的能力。
❓ 解决的问题
AI智能体越来越多部署在需要适应新信息的动态开放环境中,但缺乏高效衡量这种能力的现实用例评估方法。现有基准难以测量长时间跨度的开放端适应能力。
🛠️ 方法
构建FutureSim,智能体在知识截断后预测世界事件,与按时间顺序重放的真实世界交互。评估前沿智能体原生工具链,测试三个月期间的预测能力。提供消融实验研究长程测试时适应、搜索、记忆和不确定性推理。
📊 效果
最佳智能体准确率仅25%,许多智能体的Brier技能分低于不做预测。揭示了智能体能力的明显分层。为长程测试时适应、搜索、记忆和不确定性推理研究提供现实场景。
🤖 AI 评价
FutureSim是一个设计精良的评估基准,填补了AI智能体开放端适应评估的空白。使用真实世界事件重放的思路非常聪明,确保评估的现实性和相关性。25%的最佳准确率表明当前智能体在真实动态环境中仍有巨大提升空间。对推动智能体研究向实际应用场景发展有重要价值。
标签: 智能体评估, 世界模型, 适应能力, 预测
7. Articraft: An Agentic System for Scalable Articulated 3D Asset Generation
作者: Matt Zhou, Ruining Li, Xiaoyang Lyu, Zhaomou Song, Zhening Huang, Chuanxia Zheng, Christian Rupprech…
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.15187v1
类别: cs.CV
🔍 核心内容
提出Articraft智能体系统,利用大语言模型生成关节式3D资产。将资产生成问题转化为编写构建程序,LLM针对领域特定SDK编写定义部件、组合几何、指定关节和编写测试验证的代码。构建Articraft-10K数据集,包含10K+关节资产,覆盖245个类别。
❓ 解决的问题
学习理解关节式3D对象的瓶颈在于缺乏大规模多样化数据集。现有方法难以规模化生成高质量、可动、结构合理的关节式3D资产。
🛠️ 方法
设计程序化接口和工具链帮助LLM有效工作:领域特定SDK定义部件/几何/关节/测试验证。工具链暴露受限工作空间和接口,验证资产并返回结构化反馈,避免LLM被URDF文件或复杂环境管理分散注意力。
📊 效果
产生比SOTA关节资产生成器和通用编码智能体更高质量的资产。Articraft-10K覆盖245个类别,在训练关节资产模型和下游应用(机器人仿真、虚拟现实)中展现效用。
🤖 AI 评价
Articraft是将LLM能力应用于3D内容生成的优秀范例。程序化生成策略巧妙避开了直接生成3D数据的困难,利用代码作为中间表示实现可控性和可验证性。10K规模的数据集对领域发展有重要贡献。在机器人仿真和VR中的应用展示了实用价值。方法可扩展且生成质量可靠。
标签: 3D资产生成, 关节对象, LLM智能体, 程序化生成
8. VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction
作者: Kaixin Zhu, Yiwen Tang, Yifan Yang, Renrui Zhang, Bohan Zeng, Ziyu Guo, Ruichuan An, Zhou Liu, Qizhi…
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.15186v1
类别: cs.AI
🔍 核心内容
提出VGGT-Edit,一种前馈文本条件原生3D场景编辑框架。引入深度同步文本注入对齐语义引导与骨干网络的空间姿态,通过残差变换头直接预测3D几何位移来变形场景。构建DeltaScene Dataset大规模数据集,通过自动化管道和3D一致性过滤确保真值质量。
❓ 解决的问题
高质量前馈3D重建模型在静态场景感知中表现强,但难以响应动态人类指令,限制交互应用。现有编辑方法采用2D提升策略,独立编辑各视图后提升回3D,导致模糊纹理和不一致几何。
🛠️ 方法
深度同步文本注入确保稳定指令 grounding。残差变换头直接预测3D几何位移,保持背景稳定。多项目标函数监督几何精度和跨视图一致性。自动化管道生成DeltaScene Dataset并过滤确保真值质量。
📊 效果
大幅超越2D提升基线,产生更清晰物体细节、更强多视图一致性,推理速度接近即时。在文本条件3D场景编辑中实现前馈原生编辑,避免2D-lifting的中间步骤。
🤖 AI 评价
VGGT-Edit是3D场景编辑领域的重要进展。原生3D编辑直接解决了2D-lifting策略的根本缺陷,前馈架构确保了实时性。深度同步文本注入和残差变换头的设计体现了对问题本质的深刻理解。DeltaScene Dataset的构建展示了良好的工程实践。对交互式3D应用(游戏、AR/VR)有重要实用价值。
标签: 3D场景编辑, 前馈模型, 文本条件, 残差场
9. Quantitative Video World Model Evaluation for Geometric-Consistency
作者: Jiaxin Wu, Yihao Pi, Yinling Zhang, Yuheng Li, Xueyan Zou
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.15185v1
类别: cs.AI
🔍 核心内容
提出PDI-Bench(Perspective Distortion Index)定量框架,审计生成视频中的几何一致性。通过分割和点跟踪获取对象中心观测,通过单目重建提升到3D世界坐标,计算三个失败维度的投影几何残差:尺度-深度对齐、3D运动一致性、3D结构刚性。构建PDI-Dataset覆盖多样化场景。
❓ 解决的问题
生成视频模型作为隐式世界模型被越来越多研究,但评估其是否产生物理上合理的3D结构和运动仍具挑战。现有评估依赖人类判断或学习评分器,主观性强,对几何失败的诊断能力弱。
🛠️ 方法
PDI-Bench框架:SAM 2/MegaSaM/CoTracker3分割跟踪→单目重建到3D→计算三个投影几何残差。PDI-Dataset设计多样化场景以压力测试几何约束。提供诊断信号评估物理基础的视频生成。
📊 效果
在SOTA视频生成器上揭示未被常见感知指标捕捉的一致几何特定失败模式。提供面向物理基础视频生成和世界模型的诊断信号。
🤖 AI 评价
PDI-Bench填补了生成视频几何一致性定量评估的空白。三个维度的残差设计系统且有物理依据,可精确诊断问题所在。相比主观的人类评估,该方法提供了可重复、可比较的量化指标。对推动视频生成模型向物理合理性发展有重要意义。代码和数据集开源有助于社区采用。
标签: 视频评估, 几何一致性, 世界模型, 物理合理性
10. Aligning Latent Geometry for Spherical Flow Matching in Image Generation
作者: Tuna Han Salih Meral, Kaan Oktay, Hidir Yesiltepe, Adil Kaan Akan, Pinar Yanardag
评分: ⭐⭐⭐ (7/10)
链接: http://arxiv.org/abs/2605.15193v1
类别: cs.CV
🔍 核心内容
提出将潜在流匹配从欧几里得弦路径转换为球面测地线路径的方法。通过将潜在token分解为径向和角向分量,发现解码后的感知和语义内容主要由方向承载。将数据潜在投影到固定token半径,使用高斯噪声的径向投影作为球面先验,用球面线性插值替代线性插值。
❓ 解决的问题
潜在流匹配沿线性路径传输高斯噪声到VAE潜在表示,但两个端点集中在薄球壳中,欧几里得弦会离开球壳,即使预处理对齐半径也无法解决。需要保持路径在球面上以匹配潜在空间的自然几何结构。
🛠️ 方法
分解潜在token为径向和角向分量,通过组件交换探针验证方向主导内容。将数据潜在投影到固定半径,使用球面高斯先验,冻结编码器微调解码器。用球面线性插值(SLERP)替代线性插值,速度目标纯角向。
📊 效果
在匹配训练条件下,方法一致提升不同图像tokenizer的类条件ImageNet-256 FID。不改变扩散架构,无需辅助编码器或表示对齐目标。路径在每个时间步保持在球面上。
🤖 AI 评价
这是一篇理论扎实的生成模型改进工作。从潜在空间几何结构出发,发现了方向-半径解耦的重要性质,并据此设计了球面流匹配。方法简洁优雅,无需改变主干架构即可提升性能。虽然FID提升幅度未明确量化,但一致性改进和理论贡献使其成为流匹配领域有价值的方向。对理解潜在空间几何有启发意义。
标签: 流匹配, 潜在空间, 图像生成, 几何对齐
📈 今日统计
- 论文总数: 10 篇
- 数据来源: ArXiv RSS (cs.AI, cs.LG, cs.CL, cs.CV, cs.RO)
- 更新时间: 2026-05-18
本报告由 AI 自动生成,仅供参考。论文观点不代表本站立场。