ArXiv 每日论文精选 | 2026-05-05

📚 ArXiv 每日论文精选 | 2026-05-05

自动精选今日 ArXiv 最新 AI/ML 论文,AI 深度解读核心内容、方法、效果与评价。


1. HyCOP: Hybrid Composition Operators for Interpretable Learning of PDEs

作者: Jinpai Zhao, Nishant Panda, Yen Ting Lin, Eirik Valseth, Diane Oyen, Clint Dawson
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2605.00820v1
类别: cs.LG

🔍 核心内容

提出HyCOP框架,通过组合简单模块(对流、扩散、学习闭合、边界处理)来学习参数化PDE解算子。不同于学习单一映射,HyCOP学习基于查询条件的短程序策略,根据状态特征选择模块和持续时间。模块可以是数值子求解器或学习组件,支持在任意查询时间评估混合代理模型。

❓ 解决的问题

传统神经算子学习单一整体映射,缺乏可解释性,且OOD泛化能力差。PDE求解需要处理不同边界条件、物理机制和尺度,单一模型难以适应。

🛠️ 方法

采用模块化组合策略,将复杂PDE分解为可解释的组件。通过查询条件选择模块组合,支持数值和学习模块混合使用。理论分析给出了表达能力表征和误差分解,将组合误差与模块误差分离。

📊 效果

在多个PDE基准上实现数量级的OOD改进,支持通过字典更新进行模块化迁移(如边界交换、残差增强),生成可解释的执行程序。

🤖 AI 评价

创新性很高(9/10),将程序合成思想引入PDE学习,兼具可解释性和强泛化能力。实用性良好,模块化设计便于维护和扩展。局限:需要预定义模块库,对全新PDE类型可能需要额外设计模块。

标签: PDE, 神经算子, 模块化学习, 可解释AI, 科学计算


2. When RAG Chatbots Expose Their Backend: An Anonymized Case Study of Privacy and Security Risks in Patient-Facing Medical AI

作者: Alfredo Madrid-García, Miguel Rujas
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2605.00796v1
类别: cs.AI

🔍 核心内容

对患者面向的医疗RAG聊天机器人进行匿名化安全评估。发现严重隐私和安全漏洞:通过浏览器开发者工具可获取系统提示、模型配置、检索参数、后端端点、API模式、文档和对话元数据,以及最近1000条患者对话记录,且无需身份验证。

❓ 解决的问题

患者面向的医疗RAG聊天机器人需要严格的安全、隐私和治理控制,但AI辅助开发降低了构建门槛,导致安全控制不足。

🛠️ 方法

两阶段策略:Claude辅助探索性提示测试和结构化漏洞假设,然后使用Chrome开发者工具手动验证浏览器可见的网络流量、负载、API模式、配置对象和存储的交互数据。

📊 效果

确认系统提示、嵌入配置、检索参数、后端端点、API模式、知识库内容和1000条最近患者对话暴露。违反隐私承诺,完整对话记录无需认证即可检索。

🤖 AI 评价

社会价值极高(9/10),揭露了医疗AI部署中的严重安全隐患。方法简单但有效,强调独立审查的必要性。创新性在于揭示LLM辅助安全评估的双刃剑效应。局限:单案例研究,需要更大规模评估。

标签: 医疗AI, 隐私安全, RAG, 安全评估, 患者数据保护


3. When LLMs Stop Following Steps: A Diagnostic Study of Procedural Execution in Language Models

作者: Sailesh Panda, Pritam Kadasi, Abhishek Upperwal, Mayank Singh
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.00817v1
类别: cs.CL

🔍 核心内容

构建了一个程序执行诊断基准,测试LLM是否忠实执行提示中指定的逐步算法。模型被赋予算术算法和两个数字输入,需要返回最终计算值。通过5步到95步的算法长度变化,以及中间变量的回溯依赖来评估。

❓ 解决的问题

LLM在推理基准上表现良好,但最终答案准确率无法揭示模型是否忠实执行了提示中的程序。程序执行能力对代码生成、数学证明和复杂推理至关重要。

🛠️ 方法

设计受控诊断基准,使用简单算术操作但通过算法长度和回溯依赖增加复杂度。在14个模型和55个数据集上进行评估,进行生成级别分析识别失败模式。

📊 效果

平均首次回答准确率从5步程序的61%降至95步程序的20%。失败模式包括:遗漏答案、过早回答、初始错误后自我纠正、未充分执行轨迹和幻觉额外步骤。

🤖 AI 评价

实用性很强(8/10),诊断性研究揭示了LLM的深层缺陷。创新性中等,方法是系统性测试而非算法改进。局限:仅测试算术程序,未覆盖更复杂逻辑结构。

标签: LLM, 程序执行, 诊断基准, 推理能力, 忠实性


4. Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

作者: Siyuan Huang, Xiaoye Qu, Yafu Li, Tong Zhu, Zefeng He, Muxin Fu, Daizong Liu, Wei-Long Zheng, Yu Che…
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.00814v1
类别: cs.AI

🔍 核心内容

提出Persistent Visual Memory (PVM)模块,解决自回归LVLM中的"视觉信号稀释"现象。随着文本历史积累,注意力分区函数扩大导致视觉注意力随生成序列长度呈反比衰减。PVM作为并行分支直接提供视觉嵌入,建立距离无关的检索路径。

❓ 解决的问题

LVLM在深度生成过程中视觉信号逐渐衰减,导致复杂视觉推理任务性能下降。传统注意力机制中视觉令牌被大量文本令牌稀释。

🛠️ 方法

在FFN旁集成轻量级可学习PVM模块,通过跨模态消息传递直接提供视觉嵌入。不依赖位置编码或注意力机制,实现距离无关的视觉感知。参数量开销可忽略。

📊 效果

在Qwen3-VL 4B和8B模型上测试,在需要持续视觉感知的复杂推理任务中取得显著提升。能抵抗长度引起的信号衰减,加速内部预测收敛。

🤖 AI 评价

创新性高(8/10),问题定义清晰,解决方案简洁优雅。实用性很好,参数量开销小且易于集成。局限:仅在Qwen3-VL上验证,对其他架构的通用性有待验证。

标签: LVLM, 视觉语言模型, 注意力机制, 长序列生成, 视觉感知


5. Can Coding Agents Reproduce Findings in Computational Materials Science?

作者: Ziyang Huang, Yi Cao, Ali K. Shargh, Jing Luo, Ruidong Mei, Mohd Zaki, Zhan Liu, Wyatt Bunstine, Wil…
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.00803v1
类别: cs.AI

🔍 核心内容

提出AutoMat基准,评估LLM编码智能体在计算材料科学中的研究复现能力。任务包括:从不完整论文描述中恢复计算流程、导航专业工具链、判断证据是否支持科学声明。收集了真实材料科学论文中的声明进行测试。

❓ 解决的问题

编码智能体在软件工程基准上表现优异,但在计算科学工作流中面临挑战:需要编程能力、领域专业知识和科学结果解释能力的结合。

🛠️ 方法

与领域专家合作,从真实论文中提取声明并构建端到端复现工作流。评估多种基础模型和编码智能体设置,进行错误分析识别失败模式。

📊 效果

最佳设置成功率仅54.1%,从论文文本重建工作流时表现最差。主要失败原因:不完整程序、方法偏差和执行脆弱性。

🤖 AI 评价

实用价值极高(8/10),为AI4Science设定了重要基准。揭示当前智能体在科学复现中的严重局限。创新性良好,但主要是评估工作而非技术改进。局限:仅覆盖材料科学,其他领域需类似基准。

标签: AI4Science, 编码智能体, 材料科学, 科学复现, 基准测试


6. Generating Statistical Charts with Validation-Driven LLM Workflows

作者: Pavlin G. Poličar, Andraž Pevcin, Blaž Zupan
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.00800v1
类别: cs.LG

🔍 核心内容

提出结构化LLM工作流,将图表生成分解为数据集筛选、绘图提案、代码合成、渲染、验证驱动优化、描述生成和问答生成。通过渲染输出验证解决可视化特有的失败模式(可读性、语义不匹配),将图表生成视为可检查的过程而非一次性提示到代码任务。

❓ 解决的问题

LLM生成统计图表时许多错误仅在渲染后才显现,现有数据集很少提供代码、数据上下文和问答对的全对齐产物。

🛠️ 方法

将图表生成分解为7个步骤,引入渲染输出验证。保留每个图表与其代码、数据上下文、描述和问答对的关联。应用于UCI数据集生成1500个图表。

📊 效果

从74个数据集生成1500个图表,覆盖24个图表家族,配30003个问答对。评估16个MLLM显示语法问题近乎饱和,但值提取、比较和推理仍具挑战。

🤖 AI 评价

实用性很强(8/10),工作流设计合理,验证驱动方法有效。创新性中等,主要是系统集成。数据集贡献有价值。局限:依赖LLM进行多步骤生成,成本较高。

标签: 数据可视化, 图表生成, LLM工作流, 验证驱动, 多模态推理


7. Unsupervised Denoising of Real Clinical Low Dose Liver CT with Perceptual Attention Networks

作者: Jingxi Pu, Tonghua Liu, Zhilin Guan, Siqiao Li, Yang Ming, Zheng Cong, Wei Zhang, Fangwei Li
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.00793v1
类别: cs.AI

🔍 核心内容

提出端到端无监督低剂量CT去噪框架,结合U-Net多尺度特征提取、注意力机制特征融合和残差网络特征转换,引入感知损失改善医学图像特性。构建真实低剂量CT数据集,通过图像评估指标和医学评估标准进行验证。

❓ 解决的问题

低剂量CT减少患者辐射暴露但引入更多噪声,干扰医生视觉解释并影响诊断结果。真实临床数据缺乏配对的高剂量参考图像,难以进行监督学习。

🛠️ 方法

受Cycle-GAN启发设计无监督框架,结合U-Net、注意力机制和残差网络。引入感知损失适应医学图像特性。构建真实低剂量CT数据集进行大量对比实验。

📊 效果

相比经典方法优势在于无需配对高剂量参考图像即可实现优秀性能。实验结果经影像科医生专业评估,满足临床需求。

🤖 AI 评价

实用性很高(8/10),解决真实临床数据无法直接监督学习的痛点。无监督方法具有重要临床价值。创新性中等,方法组合较标准。局限:仅测试肝脏CT,其他部位泛化性待验证。

标签: 医学图像, CT去噪, 无监督学习, 低剂量CT, 注意力机制


8. Make Your LVLM KV Cache More Lightweight

作者: Xihao Chen, Yangyang Guo, Roger Zimmermann
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.00789v1
类别: cs.AI

🔍 核心内容

提出LightKV方法,通过利用视觉令牌嵌入的冗余性来减少KV缓存大小。受文本提示引导,采用跨模态消息传递聚合视觉令牌信息,在预填充阶段渐进压缩视觉令牌。这种提示感知引导区别于仅考虑视觉的压缩策略。

❓ 解决的问题

KV缓存在LVLM推理中引入大量GPU内存开销,因为预填充阶段处理大量视觉令牌。直接采用LLM的KV缓存策略在视觉场景下效率低下。

🛠️ 方法

基于文本提示的跨模态消息传递,聚合视觉令牌信息并渐进压缩。在8个开源LVLM和8个公共基准数据集上评估。

📊 效果

仅保留55%原始视觉令牌,LightKV将视觉KV缓存减半,计算量减少40%,保持通用性能并显著优于现有基线。

🤖 AI 评价

实用性很高(8/10),内存和计算效率提升明显。创新性良好,跨模态引导压缩思路新颖。方法简洁易于集成。局限:压缩率固定为55%,自适应压缩可能更优。

标签: LVLM, KV缓存优化, 视觉压缩, 跨模态, 推理效率


9. RunAgent: Interpreting Natural-Language Plans with Constraint-Guided Execution

作者: Arunabh Srivastava, Mohammad A., Khojastepour, Srimat Chakradhar, Sennur Ulukus
评分: ⭐⭐⭐ (7/10)
链接: http://arxiv.org/abs/2605.00798v1
类别: cs.LG

🔍 核心内容

提出RunAgent多智能体计划执行平台,将自然语言计划解释为带约束的逐步执行。通过显式控制结构(IF、GOTO、FORALL)弥合自然语言与编程的确定性差距。支持语法和语义验证、自主约束推导、动态工具选择和上下文过滤。

❓ 解决的问题

LLM在结构化工作流执行中不可靠,自然语言计划缺乏执行确定性,需要验证和错误纠正机制。

🛠️ 方法

设计智能体语言显式控制结构,基于任务描述自动推导和验证约束。动态选择LLM推理、工具使用或代码生成,执行错误纠正,过滤相关上下文历史。

📊 效果

在Natural-plan和SciBench数据集上超过基线LLM和最先进的PlanGEN方法。

🤖 AI 评价

创新性良好(7/10),系统设计完整,约束引导方法实用。但方法较复杂,可能增加部署难度。与现有工作流引擎(如LangChain)的差异化不够明显。

标签: 智能体, 计划执行, 约束引导, 工作流, 自然语言处理


10. SAVGO: Learning State-Action Value Geometry with Cosine Similarity for Continuous Control

作者: Stavros Orfanoudakis, Pedro P. Vergara
评分: ⭐⭐⭐ (7/10)
链接: http://arxiv.org/abs/2605.00787v1
类别: cs.LG

🔍 核心内容

提出State-Action Value Geometry Optimization (SAVGO),将价值相似性显式纳入策略更新。学习联合状态-动作嵌入空间,相似动作值估计的配对具有高余弦相似性,不相似配对映射到不同方向。生成候选动作的相似性核,引导策略改进朝向更高价值区域。

❓ 解决的问题

表示学习和相似性学习提高了RL样本效率,但很少直接用于塑造动作空间的策略更新。价值几何与策略优化之间存在脱节。

🛠️ 方法

学习联合状态-动作嵌入空间,基于余弦相似性构建候选动作相似性核。统一表示学习、价值估计和策略优化在几何一致目标内,保持off-policy actor-critic可扩展性。

📊 效果

在MuJoCo连续控制基准上展示了对强基线的改进,尤其在挑战性高维任务上。消融实验分析了价值几何学习和相似性策略更新的贡献。

🤖 AI 评价

创新性良好(7/10),几何感知RL思路新颖,统一目标设计优雅。但改进幅度在标准基准上可能不够显著。方法复杂度增加,实际部署价值待验证。

标签: 强化学习, 连续控制, 表示学习, 相似性学习, 策略优化


📈 今日统计

  • 论文总数: 10 篇
  • 数据来源: ArXiv RSS (cs.AI, cs.LG, cs.CL, cs.CV, cs.RO)
  • 更新时间: 2026-05-05

本报告由 AI 自动生成,仅供参考。论文观点不代表本站立场。