ArXiv 每日论文精选 | 2026-05-27

May 27, 2026 3-minute read

arXiv • 论文阅读 • AI研究 • 每日精选 • 机器学习

📚 ArXiv 每日论文精选 | 2026-05-27

自动精选今日 ArXiv 最新 AI/ML 论文，AI 深度解读核心内容、方法、效果与评价。

1. MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research

作者: Dingbang Wu, Rui Hao, Haiyang Wang, Shuzhe Wu, Han Xiao, Zhenghong Li, Bojiang Zhou, Zheng Ju, Ziche…
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2605.26114v1
类别: cs.AI

🔍 核心内容

构建一个浏览器托管的轻量级移动GUI仿真环境MobileGym，支持确定性状态评估和低成本并行rollouts，配备416个参数化任务模板的基准测试集。

❓ 解决的问题

现有移动Agent训练缺乏可验证的确定性环境，真实设备训练成本高，仿真环境又难以准确评估Agent行为结果，限制了规模化在线RL的发展。

🛠️ 方法

通过结构化JSON捕获完整环境状态，实现状态可分叉/可比较；分层状态模型和声明式任务定义框架保持大规模下的可编程性；统一程序化判定机制提供确定性评估和稠密RL奖励。

📊 效果

单服务器可托管数百实例（每实例约400MB内存，3秒冷启动）；Sim-to-Real实验中GRPO训练在Qwen3-VL-4B上提升12.8个百分点，真实设备保留95.1%的训练增益。

🤖 AI 评价

实用性极强的平台工作。将移动端Agent训练从昂贵的真机测试转移到可扩展的仿真环境是行业的关键需求。确定性JSON状态评估避免了LLM-as-Judge的不稳定性。400MB内存占用和3秒冷启动意味着真正的规模化训练成为可能。与OpenClaw的对比也很有意思——这类基础设施正是Agent生态需要的。

标签: Agent训练, GUI Agent, 强化学习, 仿真环境

2. From Model Scaling to System Scaling: Scaling the Harness in Agentic AI

作者: Shangding Gu
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2605.26112v1
类别: cs.AI

🔍 核心内容

提出Agentic AI的下一个关键瓶颈不是模型扩展，而是系统扩展——将围绕基础模型的结构化执行层（harness）作为一等设计对象，关注上下文治理、可信记忆和动态技能路由。

❓ 解决的问题

当前Agent评估仍以模型为中心，将记忆、检索、工具使用、编排、验证等视为次要实现细节。但Agent性能实际上源于基础模型与各系统组件的交互。

🛠️ 方法

定义Agent harness的组成：基础模型、记忆层、上下文构造器、技能路由层、编排循环和验证治理层。提出harness级基准应衡量轨迹质量、记忆卫生、上下文效率等指标。

📊 效果

开发了Python原生参考实现CheetahClaws，并与Claude Code和OpenClaw进行对比，论证系统设计与更强基础模型同等重要。

🤖 AI 评价

一篇高度概念性的重要论文，触及了Agent领域的核心盲区。当大家都在追求更大的模型时，它提醒我们系统架构才是将模型能力转化为长期Agent行为的翻译器。CheetahClaws与OpenClaw的比较尤其值得关注——这可能是对现有Agent框架最有价值的审视。缺点是概念多于实验，但作为一个研究议程非常有力。

标签: Agent架构, 系统设计, Agent评估, 基础模型

3. Reinforcing Few-step Generators via Reward-Tilted Distribution Matching

作者: Yushi Huang, Xiangxin Zhou, Ruoyu Wang, Chi Zhang, Jun Zhang, Tianyu Pang
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2605.26108v1
类别: cs.CV

🔍 核心内容

提出RTDMD，一个两阶段框架，将分布匹配蒸馏与奖励引导的强化学习统一用于少步flow生成器。第一阶段AC-DMD进行子区间分布匹配，第二阶段联合优化奖励最大化，实现仅4步推理的SOTA文本到图像生成。

❓ 解决的问题

少步扩散蒸馏虽已实现高效图像生成，但与人类偏好的对齐仍然困难——分布匹配和奖励最大化之间存在张力。

🛠️ 方法

证明最小化到奖励倾斜教师分布的KL散度自然分解为分布匹配项和奖励最大化项；AC-DMD进行子区间分布匹配并添加一致性正则化；第二阶段使用混合策略梯度结合GRPO风格估计器和直接奖励反向传播，并引入SubGRPO降低方差。

📊 效果

在SD3/SD3.5/FLUX.2上仅用4步推理达到SOTA，在偏好、美学和组合指标上超越之前的少步方法。

🤖 AI 评价

少步扩散+RL是一个竞争激烈的领域，RTDMD的理论贡献在于统一了看似矛盾的分布匹配和奖励最大化——通过KL散度分解自然地得到两者。AC-DMD的一致性正则化和SubGRPO都是实用的工程创新。4步达到SOTA意味着推理效率的重大突破。然而，少步生成固有的质量损失是否被完全弥补，仍需更广泛的视觉评估。

标签: 扩散模型, 少步推理, 强化学习, 图像生成

4. Looped Diffusion Language Models

作者: Sanghyun Lee, Chunsan Hong, Seungryong Kim, Jonghyun Lee, Jongho Park, Dongmin Park
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2605.26106v1
类别: cs.LG

🔍 核心内容

提出LoopMDM，一种选择性循环早期-中期transformer层的掩码扩散语言模型。训练时循环层实现无需增加参数的深度扩展效果，推理时可变循环次数实现灵活的计算扩展。

❓ 解决的问题

掩码扩散模型（MDM）作为自回归模型的替代方案前景广阔，但其transformer架构的有效设计尚未被充分探索，训练效率与性能的平衡仍是挑战。

🛠️ 方法

选择性循环早期-中期层；推理时通过增加循环次数扩展计算量；自适应调整采样过程中的循环次数进一步提升计算效率。

📊 效果

在多个预训练语料上，LoopMDM以少3.3倍训练FLOPs匹配同规模MDM性能，在GSM8K等推理基准上提升高达8.5分；甚至超过更深层的非循环MDM。

🤖 AI 评价

Layer recycling在CV/NLP中都有探索，但在MDM中的应用带来了独特的优势：循环促进了masked positions之间的交互，这对扩散采样至关重要。更惊艳的是它以更少的训练计算超越了更深层的模型——说明参数复用比naive深度扩展更有效。推理时的灵活计算扩展也是实际需求（fast vs. quality模式）。这是一个简洁但效果显著的方法。

标签: 语言模型, 扩散模型, 架构设计, 训练效率

5. TriSplat: Simulation-Ready Feed-Forward 3D Scene Reconstruction

作者: Weijie Wang, Zimu Li, Jinchuan Shi, Zeyu Zhang, Botao Ye, Marc Pollefeys, Donny Y. Chen, Bohan Zhuan…
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.26115v1
类别: cs.CV

🔍 核心内容

提出TriSplat，一种基于有向三角形基元的前馈3D重建网络，可直接从单次前向传播输出物理引擎可用的mesh场景，而非传统的高斯基元表示。

❓ 解决的问题

现有前馈splatting方法多基于高斯基元，表面只能通过后处理间接提取，破坏了前馈流程的简洁性，尤其在pose-free设置下更困难。

🛠️ 方法

预测局部3D点图、三角形属性、相机位姿，从点图构建几何法线并用图像条件法线头优化，配合单目法线引导和渐进式锐化调度实现稳定训练。

📊 效果

在RealEstate10K和DL3DV上取得比高斯基线更几何忠实的重建效果，同时保持竞争力的新视角渲染质量，输出可直接被物理引擎使用。

🤖 AI 评价

这是3D重建走向实用化的重要一步。将渲染基元从Gaussian切换到Triangle看似简单，但解决了仿真就绪的关键瓶颈——mesh可以直接进入物理引擎和碰撞检测。pose-free下的联合估计也很有挑战性。缺点是可能牺牲部分渲染细节换取几何精确性，且对透明/反射等复杂表面处理未明确讨论。

标签: 3D重建, Gaussian Splatting, Mesh生成, 计算机视觉

6. AnyScene: Towards Highly Controllable Driving Scene Generation at Anywhere and Beyond

作者: Haiming Zhang, Junfei Zhou, Feng Jiang, Jingzhong Li, Zhenglong Guo, Penglin Dai, Jifeng Dai, Yan Xi…
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.26113v1
类别: cs.CV

🔍 核心内容

提出AnyScene，一个以occupancy为中心的统一自动驾驶场景生成框架，支持从任意BEV布局生成语义occupancy序列，并据此合成时间一致的多视角驾驶视频。

❓ 解决的问题

现有occupancy引导方法依赖浅层条件机制和参考帧依赖的视频合成，限制了从任意BEV布局的细粒度可控性，也难以支持可扩展的长时程仿真。

🛠️ 方法

时空Occupancy Diffusion Transformer以自回归方式联合token化BEV和occupancy特征；Geometry-Grounded View Expansion模块将occupancy作为规范空间表示，以参考无关的自回归方式合成多视角视频，支持灵活的相机配置。

📊 效果

在occupancy和视频生成上达到SOTA性能，对未见过的自定义布局具有强泛化能力，并有益于稀疏视角3D重建等下游任务。

🤖 AI 评价

自动驾驶数据合成的重要进展。将occupancy作为中间表示而非直接条件信号，解决了跨数据集布局可控性和长时程生成的核心问题。reference-free和灵活相机配置意味着真正的通用场景生成。对于自动驾驶的长尾安全场景覆盖极具价值，但生成质量和真实场景的domain gap仍需关注。

标签: 自动驾驶, 场景生成, Diffusion, Occupancy

7. Squeezing Capacity from Multimodal Large Language Models for Subject-driven Generation

作者: Shuhong Zheng, Aashish Kumar Misraa, Yu-Teng Li, Yu-Jhe Li, Igor Gilitschenski
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.26111v1
类别: cs.AI

🔍 核心内容

利用多模态大语言模型（MLLM）联合编码文本和参考图像来条件化扩散模型，通过VAE身份条件化和双层聚合模块，实现主体驱动生成中的语义理解与身份保持的平衡。

❓ 解决的问题

现有方法将文本和参考图像分开编码，限制了跨模态推理并导致copy-paste伪影；而连接MLLM和扩散模型的框架又忽视身份保持。

🛠️ 方法

MLLM联合编码文本和图像，配合VAE-based身份条件化；Dual Layer Aggregation模块聚合多层级MLLM特征；多阶段去噪策略逐步平衡MLLM语义信息与VAE细粒度身份信息。

📊 效果

在多模态理解与身份保持之间取得和谐，缓解copy-paste问题，在主体驱动生成的人类偏好评价上表现优异。

🤖 AI 评价

这是一个聪明的能力复用策略——与其训练专用的subject编码器，不如充分利用MLLM已有的多模态理解能力。DLA模块和渐进式去噪策略的设计都很精巧。人类偏好的提升说明这不仅是指标胜利，而是实际体验的改善。局限性在于依赖MLLM的能力上限，且未深入分析计算开销的增加。

标签: 图像生成, 多模态, 扩散模型, Subject-driven

8. Helix4D: Complex 4D Mesh Generation

作者: Jiraphon Yenphraphai, Jianqi Chen, Jian Wang, Gordon Qian, Sergey Tulyakov, Rameen Abdal, Raymond A….
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.26109v1
类别: cs.CV

🔍 核心内容

提出Helix4D，一种动态mesh生成框架，继承Trellis2的表达性表示，通过滑动窗口跨帧注意力和4D时间编码将其从image-to-3D适配到video-conditioned 4D生成。

❓ 解决的问题

现有video-to-4D方法难以处理复杂拓扑变化、透明材质、薄结构和内表面，这些问题在动态场景中尤为突出。

🛠️ 方法

滑动窗口跨帧注意力以首帧为锚点继承Trellis2的预训练质量；4D时间编码重新利用冗余的低频空间RoPE频带表示时间，无需额外参数扩展3D编码。

📊 效果

在ActionBench和自定义复杂动态数据集上展示了高质量动态mesh生成，有效处理了透明物体和内表面等 rare cases。

🤖 AI 评价

4D生成是3D视觉的前沿方向，Helix4D的聪明之处在于充分利用了Trellis2的预训练能力而非从头训练。零额外参数的4D时间编码是个精妙的技术细节——利用RoPE的低频冗余而非添加新参数，既保持了预训练优势又引入了时间维度。对拓扑变化和透明材质的处理能力填补了这一领域的空白。

标签: 4D生成, Mesh生成, 视频到4D, 计算机视觉

9. On-Policy Adversarial Flow Distillation for Autoregressive Video Generation

作者: Yang Luo, Shengju Qian, Xiaohang Tang, Zirui Zhu, Yong Liu, Xin Wang, Yang You
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.26105v1
类别: cs.CV

🔍 核心内容

提出AFD，一种面向异构黑盒教师模型的on-policy视频蒸馏框架。通过训练prompt配对的Bradley-Terry判别器估计教师-学生差异，将on-policy优势转化为学生自身噪声状态上的前向流程匹配更新。

❓ 解决的问题

自回归视频生成器适合流式/长时程/交互应用，但将强大的黑盒教师蒸馏到因果学生中很困难：教师可能只暴露完成的视频，架构/容量/采样时间都可能不同，导致SFT off-policy、分数蒸馏不适用、对抗模仿过于稀疏。

🛠️ 方法

查询教师并在相同prompt上rollout当前学生；训练BT判别器估计clean-sample的教师-学生差异；将on-policy优势转化为前向过程flow-matching更新；无需教师分数、latents、去噪轨迹或反向链RL。

📊 效果

在两个因果AR学生家族上持续改进运动和物理敏感的生成，同时保持一般视频质量；消融实验验证了自适应on-policy反馈和前向过程信用分配的重要性。

🤖 AI 评价

视频生成蒸馏的实用性解决方案。核心洞察是：对于黑盒教师，我们无法直接获取内部状态，但可以训练判别器来估计质量差距，并将这个信号转化为学生可使用的flow update。这绕过了传统蒸馏需要教师latents或分数的限制。对运动和物理质量的改善尤其重要——这些是视频生成中最容易被忽视的维度。缺点是BT判别器本身可能有bias。

标签: 视频生成, 知识蒸馏, Flow Matching, 自回归

10. Prism: A Plug-in Reproducible Infrastructure for Scalable Multimodal Continual Instruction Tuning

作者: Jun-Tao Tang, Yu-Cheng Shi, Zhen-Hao Xie, Da-Wei Zhou
评分: ⭐⭐⭐ (7/10)
链接: http://arxiv.org/abs/2605.26110v1
类别: cs.LG

🔍 核心内容

提出Prism，一个面向多模态持续指令调优（MCIT）的即插即用可复现代码库，通过轻量级插件注册机制将算法开发与主干实现分离，消除结构性碎片化。

❓ 解决的问题

现有MCIT方法通过直接修改基础MLLM代码库实现，导致巨大的工程开销、方法特定的架构和严重的代码复用限制，阻碍了公平比较和方法迭代。

🛠️ 方法

插件注册机制使新策略可作为独立插件集成，无需修改底层MLLM代码库；原生支持大规模训练流程，实现可复现、可扩展的MCIT实验。

📊 效果

消除了结构性碎片化，加速方法开发；支持广泛的训练管道，使不同MCIT方法能在统一框架下公平比较。

🤖 AI 评价

工程基础设施类的论文往往被低估，但它们对领域进步的推动作用不可小觑。Prism解决了MCIT研究中的核心工程瓶颈——每次想试一个新idea都要fork整个代码库。插件化的设计让研究者聚焦算法创新而非工程重构。对追求可复现AI研究的人来说，这是极具价值的工具。

标签: 多模态, 持续学习, 基础设施, 代码库

📈 今日统计

论文总数: 10 篇
数据来源: ArXiv RSS (cs.AI, cs.LG, cs.CL, cs.CV, cs.RO)
更新时间: 2026-05-27

本报告由 AI 自动生成，仅供参考。论文观点不代表本站立场。