ArXiv 每日论文精选 | 2026-05-14

May 14, 2026 3-minute read

arXiv • 论文阅读 • AI研究 • 每日精选 • 机器学习

📚 ArXiv 每日论文精选 | 2026-05-14

自动精选今日 ArXiv 最新 AI/ML 论文，AI 深度解读核心内容、方法、效果与评价。

1. SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture

作者: Haiwen Diao, Penghao Wu, Hanming Deng, Jiahao Wang, Shihao Bai, Silei Wu, Weichen Fan, Wenjie Ye, We…
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2605.12500v1
类别: cs.CV

🔍 核心内容

提出SenseNova-U1原生统一多模态范式，基于NEO-unify架构，将理解和生成为单一底层过程的两个协同视角。发布了8B密集模型和30B-A3B MoE模型两种变体，在理解任务上媲美顶级VLM，同时在生成任务上表现出色。

❓ 解决的问题

现有大型视觉语言模型将理解和生成分割为不同问题，导致架构碎片化、流水线级联、表示空间不对齐，阻碍了原生多模态智能的出现。

🛠️ 方法

从头开始设计的NEO-unify架构，使理解和生成作为单一过程的协同视角。提供详细的模型设计、数据预处理、预训练/后训练策略和推理策略。

📊 效果

在文本理解、视觉语言感知、知识推理、代理决策和空间智能等理解任务上达到顶级水平。在X2I合成、复杂信息图生成和交错视觉语言生成方面表现优异。在VLA和世界模型场景中也有强劲表现。

🤖 AI 评价

这是多模态统一方向的重要里程碑工作。不仅性能强劲，还提供了详细的训练策略和社区支持。商汤出品，技术深度和工程完成度都很高。VLA和WM的扩展实验展示了更广阔的路线图。如果能真正开源训练细节，将极大推动社区发展。

标签: 多模态统一, 视觉语言模型, 生成模型, MoE

2. AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward

作者: Runhui Huang, Jie Wu, Rui Yang, Zhe Liu, Hengshuang Zhao
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2605.12495v1
类别: cs.AI

🔍 核心内容

提出AlphaGRPO框架，将GRPO应用于AR-Diffusion统一多模态模型（UMMs），增强多模态生成能力。解锁模型执行推理文本到图像生成和自我反思细化的能力。提出分解可验证奖励（DVReward）。

❓ 解决的问题

为真实世界的多模态生成提供稳定监督具有挑战性。整体标量奖励难以提供可靠反馈，需要额外的冷启动阶段。

🛠️ 方法

DVReward利用LLM将复杂用户请求分解为原子化的可验证语义和质量问题，再由通用MLLM评估提供可靠可解释反馈。无需额外冷启动阶段直接应用GRPO。

📊 效果

在GenEval、TIIF-Bench、DPG-Bench和WISE等基准上取得稳健提升，在GEdit编辑任务上也取得显著增益且未在编辑任务上训练。

🤖 AI 评价

多模态强化学习的精品工作。DVReward的分解思路非常巧妙，解决了多模态生成中奖励设计的核心难题。自我反思能力的解锁是一个重要突破。港大出品，实验充分。局限是依赖LLM和MLLM作为评判者，可能引入偏见；GRPO的样本效率在多模态场景下可能仍是挑战。

标签: 多模态生成, 强化学习, GRPO, 自我反思

3. Covering Human Action Space for Computer Use: Data Synthesis and Benchmark

作者: Miaosen Zhang, Xiaohan Zhao, Zhihong Tan, Zhou Huoshen, Yijia Fan, Yifan Yang, Kai Qiu, Bei Liu, Jus…
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.12501v1
类别: cs.CV

🔍 核心内容

提出了CUActSpot基准测试和渲染器数据合成流水线，针对计算机使用代理（CUA）在复杂低频交互中的可靠性问题。分析了高级模型的失败案例，发现GUI操作存在长尾模式，少数复杂多样的交互导致了不成比例的任务失败。

❓ 解决的问题

现有计算机使用代理在复杂、低频交互上的可靠性仍然很差，限制了用户信任。复杂交互数据的稀缺性导致模型在这些场景下表现不佳。

🛠️ 方法

设计了基于渲染器的数据合成流水线：自动为每种模态生成场景，记录截图和元素坐标，LLM生成匹配的指令和动作轨迹。提出了涵盖GUI、文本、表格、画布和自然图像五种模态的CUActSpot基准测试。

📊 效果

训练后的Phi-Ground-Any-4B模型在少于32B参数的开源模型中表现最优。覆盖了比以往点击为中心的基准测试更广泛的交互类型。

🤖 AI 评价

这是一项非常有实用价值的工作，直击当前CUA的核心痛点。数据合成方案巧妙地绕过了人工标注的高成本问题，五模态覆盖全面。微软出品，代码和模型将开源，社区影响力可期。缺点是主要关注交互多样性，对复杂推理链的覆盖可能有限。

标签: 计算机使用代理, 数据合成, GUI自动化, 基准测试

4. From Web to Pixels: Bringing Agentic Search into Visual Perception

作者: Bokang Yang, Xinyi Sun, Kaituo Feng, Xingping Dong, Dongming Wu, Xiangyu Yue
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.12497v1
类别: cs.CV

🔍 核心内容

提出感知深度研究任务，将代理搜索引入视觉感知。引入WebEye基准测试，包含120张图像、473个标注对象、645个QA对和1927个任务样本。提出Pixel-Searcher代理搜索到像素的工作流程。

❓ 解决的问题

现有视觉感知设定假设识别目标的证据已在图像或模型知识中。但实际场景中，可见对象需要先从外部事实、近期事件或长尾实体中解析才能定位。

🛠️ 方法

形式化感知深度研究挑战，创建WebEye基准测试（搜索基础定位、分割和VQA三个任务视图）。Pixel-Searcher通过对象锚定搜索解析隐藏目标身份并绑定到框、掩码或 grounded 答案。

📊 效果

Pixel-Searcher在三个任务视图中均达到最强开源性能。失败主要来自证据获取、身份解析和视觉实例绑定。

🤖 AI 评价

这是一个开创性的方向，将网络搜索与视觉感知结合，解决了开放世界中的知识密集型视觉任务。基准测试设计严谨，任务设置具有实际意义。缺点是数据集规模相对较小（120张图），需要更大规模验证。开源性能领先但仍有明显失败模式待解决。

标签: 视觉感知, 代理搜索, 开放世界, 基准测试

5. CausalCine: Real-Time Autoregressive Generation for Multi-Shot Video Narratives

作者: Yihao Meng, Zichen Liu, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Yue Yu, Hanlin Wang, Haobo Li, Jiape…
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.12496v1
类别: cs.CV

🔍 核心内容

提出CausalCine交互式自回归框架，将多镜头视频生成转化为在线导演过程。支持跨镜头因果生成、动态提示实时输入和上下文复用。提出内容感知记忆路由（CAMR）和少步蒸馏生成器。

❓ 解决的问题

现有自回归视频模型主要训练用于短视野延续，将长序列视为扩展的单镜头，在长 rollout 中必然遭受运动停滞和语义漂移。

🛠️ 方法

首先在原生多镜头序列上训练因果基础模型学习复杂镜头转换。然后提出CAMR根据注意力相关性分数动态检索历史KV条目而非时间邻近性。最后蒸馏为少步生成器实现实时交互。

📊 效果

显著优于自回归基线，接近双向模型能力，同时解锁因果生成的流式交互性。

🤖 AI 评价

视频生成领域的重要创新。将电影叙事中的镜头概念引入自回归生成很有创意，CAMR的记忆路由机制设计巧妙。实时交互能力是重要差异化优势。demo已可用，展示了很好的完成度。局限是主要在标准基准测试上评估，真实电影叙事的复杂度可能更高。

标签: 视频生成, 自回归模型, 多镜头叙事, 实时生成

6. LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues

作者: Di Wu, Zixiang Ji, Asmi Kawatkar, Bryan Kwan, Jia-Chen Gu, Nanyun Peng, Kai-Wei Chang
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.12493v1
类别: cs.CL

🔍 核心内容

提出LongMemEval-V2基准测试，评估记忆系统能否帮助Agent获得环境特定经验成为知识丰富的同事。包含451个人工策划问题，涵盖静态状态回忆、动态状态跟踪、工作流知识等五种核心记忆能力。提出AgentRunbook-R和AgentRunbook-C两种记忆方法。

❓ 解决的问题

现有Agent记忆基准主要关注用户历史、短轨迹或下游任务成功，缺乏对记忆系统有效内化环境特定经验的直接评估。

🛠️ 方法

AgentRunbook-R是高效的RAG记忆，包含原始状态观察、事件和策略笔记的知识池。AgentRunbook-C将轨迹存储为文件并调用编码Agent在增强沙盒中收集证据。

📊 效果

AgentRunbook-C达到72.5%平均准确率，优于最强RAG基线（48.5%）和现成编码Agent基线（69.3%）。在准确率-延迟帕累托前沿上取得进展。

🤖 AI 评价

Agent记忆评估领域的重要贡献。问题设计贴近实际工作场景，‘有经验同事’的设定很有创意。AgentRunbook-C利用编码Agent的思路巧妙，但延迟成本是实际部署需权衡的问题。UCLA出品，实验设计严谨。局限是仅针对网页环境，其他领域（如代码、科学计算）的记忆评估有待扩展。

标签: Agent记忆, 长期记忆, 基准测试, RAG

7. Elastic Attention Cores for Scalable Vision Transformers

作者: Alan Z. Song, Yinjie Chen, Mu Nan, Rui Zhang, Jiahang Cao, Weijian Mai, Muquan Yu, Hossein Adeli, De…
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.12491v1
类别: cs.LG

🔍 核心内容

提出VECA（Visual Elastic Core Attention），一种使用少量学习核心实现高效线性时间核心-外围结构注意力的视觉Transformer架构。图像块仅与固定数量的核心嵌入直接交互，实现O(N)线性复杂度。支持推理时弹性权衡计算和精度。

❓ 解决的问题

ViT中全对全自注意力的计算成本随图像分辨率二次方增长，限制其在高分辨率领域的应用。假设成对token交互对学习丰富视觉语义表示是必要的。

🛠️ 方法

核心token作为通信接口：图像块token仅通过核心token交换信息。核心从头初始化并在层间传播。保持并迭代更新全部N个输入token，避免小C路瓶颈。沿核心轴嵌套训练实现弹性推理。

📊 效果

在分类和密集任务上达到与最新视觉基础模型相当的性能，同时降低计算成本。

🤖 AI 评价

对ViT注意力机制的根本性重新思考。挑战了全对全注意力的必要性假设，核心-外围结构在认知科学中也有理论基础。线性复杂度的突破对高分辨率应用意义重大。弹性推理能力很实用。ETHZ出品，实验全面。局限是核心数量C的超参数选择对性能影响需要更多分析；在超大尺度（如CLIP级别）的验证尚缺。

标签: Vision Transformer, 注意力机制, 线性复杂度, 可扩展性

8. EgoForce: Forearm-Guided Camera-Space 3D Hand Pose from a Monocular Egocentric Camera

作者: Christen Millerdurai, Shaoxiang Wang, Yaxu Xie, Vladislav Golyanik, Didier Stricker, Alain Pagani
评分: ⭐⭐⭐ (7/10)
链接: http://arxiv.org/abs/2605.12498v1
类别: cs.CV

🔍 核心内容

提出EgoForce框架，通过前臂引导从单目自我中心相机恢复相机空间绝对3D手部姿态。解决了深度尺度歧义问题，并能跨鱼眼、透视和广角相机模型统一工作。

❓ 解决的问题

单目RGB方法在3D手部重建中受限于深度尺度歧义，难以在不同头戴设备的光学配置间泛化。模型通常需要大量设备特定数据集训练，获取成本高。

🛠️ 方法

结合可微分前臂表示稳定手部姿态、统一臂-手Transformer从单视图预测手部和前臂几何、射线空间闭式求解器实现跨相机模型的绝对3D姿态恢复。

📊 效果

在HOT3D数据集上将相机空间MPJPE降低最多28%，在三个自我中心基准测试中达到SOTA 3D精度，跨相机配置保持一致性能。

🤖 AI 评价

AR/VR领域非常实用的工作。前臂引导的思路很巧妙，利用人体解剖结构先验解决尺度歧义。跨相机模型统一是一个重要工程贡献。DFKI出品，技术扎实。潜在局限是仅关注手部，未涉及全身交互。

标签: 3D手部姿态, 自我中心视觉, AR/VR, 单目重建

9. Revisiting Photometric Ambiguity for Accurate Gaussian-Splatting Surface Reconstruction

作者: Jiahe Li, Jiawei Zhang, Xiao Bai, Jin Zheng, Xiaohan Yu, Lin Gu, Gim Hee Lee
评分: ⭐⭐⭐ (7/10)
链接: http://arxiv.org/abs/2605.12494v1
类别: cs.CV

🔍 核心内容

提出AmbiSuR框架，探索高斯点云在光度歧义鲁棒的表面3D重建中的内在解决方案。发现表示中的两种内置基元歧义，并提出光度消歧和歧义指示模块。

❓ 解决的问题

可微分渲染的表面重建虽取得令人印象深刻的表现，但普遍存在的光度歧义严格限制了现有方法。歧义导致病态几何解，影响表面形成。

🛠️ 方法

引入光度消歧约束病态几何解以获得确定表面形成。提出歧义指示模块释放自指示潜力以识别并指导纠正欠约束重建。

📊 效果

在各种挑战性场景中实现优于现有方法的表面重建，具有广泛的兼容性。

🤖 AI 评价

3D重建领域扎实的技术工作。从高斯点云内在特性出发解决光度歧义，思路优雅。消歧+指示的两阶段策略设计合理。实验展示了广泛兼容性。NUS出品，质量有保障。局限是专注于表面重建，未涉及纹理质量；对极端光照条件的鲁棒性可能需要进一步验证。

标签: 3D重建, 高斯点云, 光度歧义, 表面重建

10. Pion: A Spectrum-Preserving Optimizer via Orthogonal Equivalence Transformation

作者: Kexuan Shi, Hanxuan Li, Zeju Qiu, Yandong Wen, Simon Buchholz, Weiyang Liu
评分: ⭐⭐⭐ (7/10)
链接: http://arxiv.org/abs/2605.12492v1
类别: cs.LG

🔍 核心内容

提出Pion优化器，基于正交等价变换的谱保持LLM训练优化器。通过左右正交变换更新每个权重矩阵，在训练过程中保持奇异值不变。调制权重矩阵几何同时保持谱范数固定。

❓ 解决的问题

现有加性优化器（如Adam和Muon）在更新权重时不保持谱特性，可能导致训练不稳定或表示能力损失。

🛠️ 方法

推导Pion更新规则，系统检查设计选择，分析收敛行为和关键性质。通过正交变换而非加性更新来修改权重矩阵。

📊 效果

在LLM预训练和微调中提供稳定且有竞争力的替代方案，与标准优化器相比表现相当。

🤖 AI 评价

优化器理论的优雅工作。谱保持的约束条件很有物理直觉，可能带来更好的训练稳定性。剑桥出品，理论分析扎实。但作为新优化器，需要更广泛的验证和社区采纳。目前实验规模相对有限，与AdamW等成熟优化器的全面比较还需更多数据。

标签: 优化器, LLM训练, 正交变换, 谱保持

📈 今日统计

论文总数: 10 篇
数据来源: ArXiv RSS (cs.AI, cs.LG, cs.CL, cs.CV, cs.RO)
更新时间: 2026-05-14

本报告由 AI 自动生成，仅供参考。论文观点不代表本站立场。