ArXiv 每日论文精选 | 2026-05-21

May 21, 2026 3-minute read

arXiv • 论文阅读 • AI研究 • 每日精选 • 机器学习

📚 ArXiv 每日论文精选 | 2026-05-21

自动精选今日 ArXiv 最新 AI/ML 论文，AI 深度解读核心内容、方法、效果与评价。

1. From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models

作者: Juncheng Wu, Hardy Chen, Haoqin Tu, Xianfeng Tang, Freda Shi, Hui Liu, Hanqing Lu, Cihang Xie, Yuyin…
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2605.20177v1
类别: cs.CL

🔍 核心内容

系统研究了视觉语言模型（VLM）后训练阶段中感知与推理的相互作用，提出将能力分解为视觉感知、视觉推理和文本推理三个独立训练阶段的分阶段训练方法。

❓ 解决的问题

现有VLM过于强调长链思维推理，但研究发现视觉任务性能主要受限于视觉感知能力不足而非推理本身，且感知和推理的耦合训练限制了各自优化。

🛠️ 方法

将VLM能力分解为三个独立训练阶段：视觉感知（需要专门数据优化）、视觉推理（在感知基础上精炼）、文本推理；发现基于RL的感知学习优于基于caption的SFT；提出与难度课程正交的能力课程维度。

📊 效果

分阶段训练在多个VLM上 consistently 优于合并训练，推理准确率提升1.5%且推理轨迹缩短20.8%；在WeMath上+5.2%、RealWorldQA上+3.7%，达到开源VLM SOTA水平。

🤖 AI 评价

深刻揭示了感知与推理在VLM训练中的不同作用机制，分阶段训练的方法论贡献显著。实验设计严谨，跨多个模型验证充分。‘感知先行’的洞察对VLM训练实践具有重要指导意义。能力课程与难度课程正交的视角新颖。不足之处在于分阶段训练可能增加训练复杂度。整体而言，这是VLM后训练领域的重要方法论突破。

标签: Vision-Language Model, Perception, Reasoning, Training Strategy

2. ClinSeekAgent: Automating Multimodal Evidence Seeking for Agentic Clinical Reasoning

作者: Juncheng Wu, Letian Zhang, Yuhan Wang, Haoqin Tu, Hardy Chen, Zijun Wang, Cihang Xie, Yuyin Zhou
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2605.20176v1
类别: cs.CL

🔍 核心内容

提出首个自动化多模态证据检索的临床Agent框架ClinSeekAgent，将临床决策从被动证据消费转变为主动证据获取，支持查询医学知识库、导航原始EHR和调用医学影像工具。

❓ 解决的问题

现有LLM临床决策支持工作大多假设证据已预先整理并交给模型，而真实临床流程需要Agent主动检索、迭代规划和综合多模态异构证据。

🛠️ 方法

构建动态多模态证据检索框架，支持仅给定临床查询和原始数据源即可自主收集证据；构建ClinSeek-Bench基准测试对比精选输入推理和自动证据检索；通过蒸馏将高质量Agent轨迹压缩到紧凑开源模型。

📊 效果

在文本EHR任务上，ClinSeekAgent将Claude Opus 4.6从60.0提升至63.2 F1，MiniMax M2.5从43.1提升至47.3；在多模态CXR任务上提升Claude Opus 4.6从47.5到62.6(+15.1)。蒸馏模型ClinSeek-35B-A3B在AgentEHR-Bench上达到34.0平均F1，超越基线+11.9分。

🤖 AI 评价

将Agentic范式引入临床推理是极具应用前景的方向。从被动到主动证据获取的范式转变意义重大，多模态证据整合能力贴近真实临床需求。跨多个前沿LLM的验证充分，蒸馏到小模型的思路兼顾了实用性和可部署性。不足之处在于临床场景的复杂性和安全性要求可能需要更严格的验证。对医疗AI领域具有重要推动作用。

标签: Clinical AI, Agent, Multimodal, EHR, Medical Imaging

3. PiG-Avatar: Hierarchical Neural-Field-Guided Gaussian Avatars

作者: Julian Kaltheuner, Jan Spindler, Sina Kitz, Patrick Stotko, Reinhard Klein
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.20185v1
类别: cs.CV

🔍 核心内容

提出了一种新型的3D高斯人体化身表示方法，通过将高斯锚定在由连续神经场控制的体积规范空间中，解耦了几何表示与人体模板拓扑的绑定。该方法使用参数化身体模型仅用于运动学传输，而非几何约束，支持多层衣物和非刚性形变的精确捕捉。

❓ 解决的问题

传统高斯化身方法将几何参数化在人体模板表面上，限制了分层衣物、脱离身体的几何和非刚性变形的捕捉，且表示空间与模板变形空间耦合在一起。

🛠️ 方法

提出3D重心锚点传输机制维持运动一致性，引入双级空间相干优化（Sobolev预条件神经场更新 + KNN预条件规范锚点几何），实现锚点密度的自组织迁移，支持多细节层次的层次化重建。

📊 效果

在复杂衣物和非刚性运动基准测试上达到SOTA渲染质量，对不完美的身体模型初始化具有鲁棒性，所有细节层次均支持实时渲染。

🤖 AI 评价

创新性地将神经场与高斯溅射结合用于人体化身，解决了传统方法的几何约束问题。双级优化和锚点自组织机制设计巧妙，层次化重建思路实用。不足之处在于可能需要较大的计算资源进行训练。整体而言，这是数字人领域的重要进展，对虚拟现实和影视制作有实际价值。

标签: 3D Gaussian Splatting, Digital Human, Neural Field, Real-time Rendering

4. TIDE: Efficient and Lossless MoE Diffusion LLM Inference with I/O-aware Expert Offload

作者: Zhiben Chen, Youpeng Zhao, Yang Sui, Jun Wang, Yuzhang Shang
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.20179v1
类别: cs.CL

🔍 核心内容

针对混合专家（MoE）架构的扩散大语言模型（dLLM）在资源受限设备上的推理挑战，提出了一种无损优化的推理系统TIDE，通过利用扩散过程中专家激活的时间稳定性，实现I/O感知的专家卸载。

❓ 解决的问题

dLLM作为自回归模型的竞争替代，在硬件利用率和双向上下文方面表现优异，但随着MoE架构规模扩大，在资源受限设备上的部署面临巨大I/O开销和计算瓶颈。

🛠️ 方法

提出基于时间间隔的专家刷新策略，以I/O感知方式更新专家放置；将推理调度建模为数学规划问题，求解最小化I/O流量和CPU计算的最优间隔；无需模型训练即可实现无损加速。

📊 效果

在单GPU-CPU系统上，TIDE在LLaDA2.0-mini和LLaDA2.0-flash模型上分别实现1.4倍和1.5倍的吞吐量提升，且完全无损精度。

🤖 AI 评价

TIDE提供了一种’免费午餐’式的加速方案，无需重训练即可显著提升MoE dLLM推理效率，极具实用价值。数学规划求解最优间隔的思路严谨，I/O-aware设计切合实际部署需求。不足之处在于仅在单GPU-CPU系统验证，多卡/分布式场景尚未探索。对扩散语言模型的工程化部署具有重要推动作用。

标签: Diffusion LLM, MoE, Inference Optimization, Efficiency

5. A Methodology for Selecting and Composing Runtime Architecture Patterns for Production LLM Agents

作者: Vasundra Srinivasan
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.20173v1
类别: cs.AI

🔍 核心内容

提出将生产级LLM Agent运行时的随机-确定性边界（SDB）作为一等架构对象，围绕该原语构建协调、状态和控制三个关注点，并提供了六种运行时模式目录和五步法选择方法论。

❓ 解决的问题

生产级LLM Agent将随机模型输出与确定性软件系统结合，但两者之间的边界很少被视为一等架构对象，导致系统可靠性难以保障。

🛠️ 方法

定义SDB四部分契约（提议者、验证者、提交步骤、拒绝信号）；提出六种运行时模式（层级委托、散播-收集+Saga、事件驱动序列、共享状态机、监督者+门控、人机协同）；建立五步模式选择方法论和故障诊断流程。

📊 效果

应用于五个工作负载，提供一个可运行的90天合同续签Agent参考实现；提出重放发散故障模式，将单次模型方差与架构动量分离。

🤖 AI 评价

从分布式系统视角审视LLM Agent架构是一个高屋建瓴的贡献。SDB概念将工程实践中模糊的认知形式化，六种模式具有实际指导意义。五步方法论和故障诊断流程对生产部署极具实用价值。不足之处在于部分概念较为抽象，实际落地可能需要更多具体案例。随着模型方差降低，架构选择的重要性凸显，这一判断具有前瞻性。对Agent系统工程实践具有重要参考价值。

标签: LLM Agent, System Architecture, Production, Design Pattern

6. KoRe: Compact Knowledge Representations for Large Language Models

作者: Davide Cavicchini, Fausto Giunchiglia, Jacopo Staiano
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.20170v1
类别: cs.CL

🔍 核心内容

提出KoRe方法，将知识图谱的1跳子图编码为紧凑的离散知识token并注入LLM backbone，实现无需重新训练或微调的高效知识增强，在三个基准测试上达到竞争性能且token使用量减少最多10倍。

❓ 解决的问题

LLM将世界知识编码在参数中存在固有缺陷：不透明、难以调试更新、容易产生幻觉。知识图谱虽提供可读可编辑的知识表示，但现有集成技术需要大量重训练或微调。

🛠️ 方法

将1跳子图压缩为紧凑离散知识token，直接注入LLM的输入序列；避免昂贵的模型重训练，实现知识的即插即用式增强。

📊 效果

在三个 established 基准测试上报告竞争性能，token使用量显著减少（最多10倍），证明紧凑离散KG表示可高效有效地为现代LLM提供 grounding。

🤖 AI 评价

KoRe解决了LLM知识表示的核心痛点，在可解释性、可更新性和效率之间取得良好平衡。无需重训练即可注入知识的设计极具实用价值，token减少10倍对实际部署意义重大。方法简洁优雅，但可能在复杂多跳推理场景下受限。整体而言，这是知识增强LLM领域的高效实用方案，对需要频繁更新知识的应用场景（如医疗、法律）具有直接价值。

标签: Knowledge Graph, LLM, Knowledge Enhancement, Efficiency

7. MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation

作者: Yujie Wei, Yujin Han, Zhekai Chen, Yongming Li, Kaixun Jiang, Zhihang Liu, Quanhao Li, Zhiwu Qing, X…
评分: ⭐⭐⭐ (7/10)
链接: http://arxiv.org/abs/2605.20183v1
类别: cs.CV

🔍 核心内容

首个针对多镜头音视频（MSAV）生成任务的综合性基准测试和自适应混合评估框架，覆盖视频、音频、镜头和参考四个关键维度，支持最多15个镜头的复杂叙事场景评估。

❓ 解决的问题

视频生成正从单镜头合成向复杂多镜头音视频叙事演进，但现有基准测试在范围和数据多样性上受限，评估流程僵化，无法系统可靠地评估现代MSAV模型。

🛠️ 方法

构建四维评估体系，引入自适应自校正镜头分割机制、实例化评分标准的主观指标、以及基于工具的证据提取机制，实现与人类判断91.5%的Spearman秩相关性。

📊 效果

对19个SOTA闭源和开源模型的系统评估表明，当前系统在导演级控制和细粒度音视频同步方面仍存在困难，模块化或agentic生成管道有望缩小开源与闭源模型的差距。

🤖 AI 评价

填补了多镜头音视频生成评估领域的空白，自适应评估框架设计精良，与人类判断高度一致。大规模的模型对比实验提供了有价值的洞察。作为基准测试工作，其方法论贡献显著，但数据集构建和评估指标的细节可能需要更多验证。对视频生成领域的研究者具有重要参考价值。

标签: Video Generation, Benchmark, Multi-modal Evaluation, Audio-Video

8. Atoms of Thought: Universal EEG Representation Learning with Microstates

作者: Xinyang Tian, Ruitao Liu, Ziyi Ye, Siyang Xue, Xin Wang, Xuesong Chen
评分: ⭐⭐⭐ (7/10)
链接: http://arxiv.org/abs/2605.20182v1
类别: cs.AI

🔍 核心内容

提出使用EEG微状态（microstates）作为通用表示学习方法，将连续EEG信号聚类为离散的微状态序列，构建通用的微状态分词器，应用于睡眠分期、情绪识别和运动想象分类等多个下游任务。

❓ 解决的问题

传统EEG表示学习将信号视为多变量时间序列，提取时域或频域特征，缺乏统一的通用表示方法，且不同任务间的知识迁移困难。

🛠️ 方法

从大规模医学EEG数据集构建通用微状态分词器，通过聚类将连续信号离散化为微状态序列，实现跨任务的统一表示，兼具可解释性和可扩展性。

📊 效果

微状态表示学习在多个下游任务上均优于传统时域和频域特征，在不同模型和任务上表现一致，展现出良好的通用性和可解释性。

🤖 AI 评价

将微状态概念系统性地应用于EEG表示学习是一个简洁而有效的思路。跨任务通用性验证充分，对脑机接口和认知神经科学应用有启发意义。方法简单实用，但可能受限于微状态本身的信息表达能力。整体而言，这是神经信息学领域有价值的贡献，为EEG信号处理提供了新范式。

标签: EEG, Brain-Computer Interface, Representation Learning, Neuroinformatics

9. Multi-axis Analysis of Image Manipulation Localization

作者: Keanu Nichols, Divya Appapogu, Giscard Biamby, Dina Bashkirova, Anna Rohrbach, Bryan A. Plummer
评分: ⭐⭐⭐ (7/10)
链接: http://arxiv.org/abs/2605.20174v1
类别: cs.CV

🔍 核心内容

构建了一个超过53万张图像的综合基准测试AUDITS，用于从多维度（领域迁移、质量、类型、尺寸）系统研究图像篡改检测问题，覆盖用户照片和新闻照片两大来源。

❓ 解决的问题

先进的图像编辑软件和生成AI使得高度逼真的图像篡改变得容易，可能传播虚假信息、制造虚假叙事，但现有研究在不同视觉领域检测高级篡改方面十分有限。

🛠️ 方法

使用最新的扩散修复技术构建多样化篡改数据集，支持多种篡改类型和尺寸；在不同领域迁移条件下进行实验，评估现有篡改检测方法的鲁棒性。

📊 效果

提供了新的研究洞察，帮助开发更可靠和可泛化的图像篡改检测方法，推动该领域进一步发展。

🤖 AI 评价

图像篡改检测是一个日益重要的安全和媒体诚信问题，AUDITS基准测试的多维度设计（领域、质量、类型、尺寸）非常全面。53万图像规模令人印象深刻。不足之处在于未报告具体的SOTA方法性能提升数字，更多是提供分析工具而非新方法。作为基准测试工作，对图像取证领域具有重要参考价值，但可能需要持续更新以跟上生成AI的发展。

标签: Image Manipulation Detection, Benchmark, Deepfake, Computer Vision

10. Long-term Power Grid Planning via Answer Set Programming

作者: Antonio Ielo, Francesco Doria, Sandra Castellanos-Paez, Marco Maratea, Francesco Percassi, Mauro Val…
评分: ⭐⭐⭐ (7/10)
链接: http://arxiv.org/abs/2605.20172v1
类别: cs.AI

🔍 核心内容

首次提出使用Answer Set Programming（ASP）自动化和优化长期电网规划流程，将拓扑和组合不变量优雅地编码为ASP规则，确保十年级别的电网改造过程中供电连续性和服务质量。

❓ 解决的问题

长期电网规划涉及可持续性目标、需求模式和城市化趋势，实际开发可能跨越十年，需要在整个过程中保持供电连续性和服务质量，同时满足多种拓扑和组合不变量，传统规划语言难以表达这些复杂约束。

🛠️ 方法

将电网规划问题建模为ASP程序，利用ASP的声明性和非单调推理特性，优雅简洁地编码电网拓扑约束、组合不变量和长期演化规则。

📊 效果

在合成和真实电网数据上的实验评估证实了ASP方法的表达能力和有效性，能够处理复杂的长期规划约束。

🤖 AI 评价

将ASP应用于长期电网规划是一个跨学科的创新尝试，发挥了ASP在表达复杂组合约束方面的优势。对关键基础设施的自动化规划具有实际意义。不足之处在于ASP求解器的 scalability 可能限制大规模电网的应用，且缺乏与现有工业规划工具的详细对比。作为首个ASP电网规划方法，其概念验证价值显著，但实际部署可能还需要更多工程优化。

标签: Answer Set Programming, Power Grid, Infrastructure Planning, Constraint Solving

📈 今日统计

论文总数: 10 篇
数据来源: ArXiv RSS (cs.AI, cs.LG, cs.CL, cs.CV, cs.RO)
更新时间: 2026-05-21

本报告由 AI 自动生成，仅供参考。论文观点不代表本站立场。