ArXiv 每日论文精选 | 2026-05-12

May 12, 2026 3-minute read

arXiv • 论文阅读 • AI研究 • 每日精选 • 机器学习

📚 ArXiv 每日论文精选 | 2026-05-12

自动精选今日 ArXiv 最新 AI/ML 论文，AI 深度解读核心内容、方法、效果与评价。

1. LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

作者: Tong Zheng, Haolin Liu, Chengsong Huang, Huiwen Bao, Sheng Zhang, Rui Liu, Runpeng Dai, Ruibo Chen, …
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2605.08083v1
类别: cs.CL

🔍 核心内容

提出AutoTTS框架，将测试时缩放(TTS)策略从手工设计转变为自动发现。通过构建可控的发现环境，将宽度-深度TTS形式化为控制器综合问题，在预收集的推理轨迹上搜索最优策略。引入beta参数化和细粒度执行轨迹反馈提升发现效率，在数学推理基准上超越手工设计的强基线。

❓ 解决的问题

现有测试时缩放(TTS)策略主要依赖手工设计，研究者凭直觉设计推理模式和启发式规则，大量计算分配空间未被探索，限制了LLM推理性能的进一步提升。

🛠️ 方法

构建环境驱动的自动发现框架；将TTS视为控制器综合问题，在预收集轨迹上搜索分支、继续、探测、剪枝、停止等决策策略；引入beta参数化使搜索可处理；利用执行轨迹反馈帮助诊断失败原因。

📊 效果

在数学推理基准上发现的策略显著超越强手工设计基线；策略泛化到未见过的基准和模型规模；整个发现过程仅花费$39.9和160分钟。

🤖 AI 评价

这是一项非常有创新性的工作，将TTS策略设计从’ craftsmanship ‘提升为’ automated discovery ‘，范式转变意义重大。低成本($40/160分钟)的发现过程展示了极高的效率。 beta参数化和轨迹反馈的设计精巧。局限在于目前仅在数学推理上验证，其他领域(代码、创意写作等)的适用性待验证。

标签: 大语言模型, 测试时缩放, 自动发现, 推理优化

2. Normalizing Trajectory Models

作者: Jiatao Gu, Tianrong Chen, Ying Shen, David Berthelot, Shuangfei Zhai, Josh Susskind
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2605.08078v1
类别: cs.LG

🔍 核心内容

提出Normalizing Trajectory Models(NTM)，将扩散模型的每一步反向过程建模为条件归一化流，实现精确似然训练。架构上在每个步骤内使用浅层可逆块，跨轨迹使用深度并行预测器。支持从头训练或从预训练流匹配模型初始化。精确轨迹似然还实现了自蒸馏，4步即可生成高质量样本。

❓ 解决的问题

扩散模型将采样分解为多个高斯去噪步骤，当压缩为少量粗粒度转换时该假设失效。现有少步方法通过蒸馏、一致性训练或对抗目标解决，但牺牲了似然框架。

🛠️ 方法

将每步反向过程建模为条件归一化流；结合浅层可逆块和深度并行预测器；端到端网络可从头训练或从预训练流匹配模型初始化；利用精确轨迹似然进行自蒸馏训练轻量去噪器。

📊 效果

在文本到图像基准上，NTM仅用4步采样即可匹配或超越强图像生成基线；同时独特地保留了生成轨迹上的精确似然；自蒸馏实现4步高质量采样。

🤖 AI 评价

理论贡献突出，在保留精确似然的同时实现少步生成是一个重要突破。归一化流与扩散模型的结合思路新颖，架构设计兼顾了可逆性和表达能力。4步达到SOTA性能非常 impressive。局限在于实验主要在文本到图像上，其他模态(视频、3D等)的适用性有待探索。

标签: 扩散模型, 归一化流, 少步生成, 图像生成

作者: Daniel Dauner, Valentin Charraut, Bastian Berle, Tianyu Li, Long Nguyen, Jiabao Wang, Changhui Jing,…
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.08084v1
类别: cs.CV

🔍 核心内容

提出123D开源框架，通过统一API整合多模态自动驾驶数据集。将各模态存储为独立时间戳事件流，支持同步/异步访问。整合8个真实数据集（3300小时/9万公里）及1个合成数据集，提供数据分析与可视化工具，并展示跨数据集3D目标检测迁移和强化学习规划应用。

❓ 解决的问题

自动驾驶数据集模态多样（摄像头、激光雷达、自车状态等）、格式碎片化、同步方案各异，标注规范不一致导致无法跨数据集训练或评估泛化能力。

🛠️ 方法

采用独立时间戳事件流存储各模态，无预设采样率；提供单一API接口；整合8个真实世界数据集和1个合成数据集；提供数据分析、可视化、跨数据集迁移和强化学习规划工具链。

📊 效果

整合8个数据集共3300小时、90000公里驾驶数据；实现跨数据集3D目标检测迁移和强化学习规划应用；提供系统性的标注统计和位姿/标定精度评估。

🤖 AI 评价

这是一项非常实用的基础设施工作。自动驾驶领域数据孤岛问题严重，123D通过统一API和数据格式大大降低了研究者使用多数据集的门槛。将模态抽象为时间戳事件流的设计优雅且通用。开源特性将促进社区协作。缺点是主要是工程整合工作，创新性相对有限，但实用价值极高。

标签: 自动驾驶, 多模态数据, 数据集整合, 开源框架

4. Conformal Path Reasoning: Trustworthy Knowledge Graph Question Answering via Path-Level Calibration

作者: Shuhang Lin, Chuhao Zhou, Xiao Lin, Zihan Dong, Kuan Lu, Zhencan Peng, Jie Yin, Dimitris N. Metaxas
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.08077v1
类别: cs.CL

🔍 核心内容

提出Conformal Path Reasoning(CPR)框架，解决知识图谱问答(KGQA)中预测集覆盖保证不可靠的问题。创新包括：在路径级分数上进行查询级保形校准，保持可交换性；提出Residual Conformal Value Network(RCVNet)通过PUCT引导探索学习判别性路径级非一致性分数。在基准上显著提升覆盖率并减小预测集。

❓ 解决的问题

KGQA虽具可解释性，但现有方法无法提供可靠的答案覆盖保证。保形预测(CP)虽有统计保证，但现有方法在校准有效性和分数判别性方面存在缺陷，导致覆盖保证被破坏且预测集过大。

🛠️ 方法

查询级保形校准作用于路径级分数，保持可交换性同时生成路径预测集；RCVNet轻量模块通过PUCT引导探索学习判别性非一致性分数；路径级别的不确定性量化。

📊 效果

相比保形基线，实证覆盖率提升34%，平均预测集大小减少40%；在满足覆盖保证的同时显著压缩答案集。

🤖 AI 评价

将保形预测从标准分类/回归拓展到知识图谱的路径推理是一个重要进展。查询级校准+路径级分数的两层设计精巧，RCVNet通过强化学习探索学习判别性分数很有创意。40%的预测集缩减在实际应用中意义重大。局限在于目前仅在标准KGQA基准上测试，更复杂知识图谱和开放域场景的适用性待验证。

标签: 知识图谱, 保形预测, 问答系统, 不确定性量化

5. EmambaIR: Efficient Visual State Space Model for Event-guided Image Reconstruction

作者: Wei Yu, Yunhang Qian
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.08073v1
类别: cs.AI

🔍 核心内容

提出EmambaIR，首个专为事件引导图像重建设计的视觉状态空间模型。针对CNN无法捕获全局特征和ViT计算复杂度过高的问题，引入跨模态Top-k稀疏注意力模块(TSAM)进行像素级稀疏注意力引导跨模态交互，以及门控状态空间模块(GSSM)增强SSM时序表征。在6个数据集的3个任务上达到SOTA且大幅降低计算成本。

❓ 解决的问题

事件相机图像重建方法主要依赖CNN和ViT，但CNN难以捕获全局特征关联，ViT具有二次计算复杂度，限制了在高分辨率场景的应用。

🛠️ 方法

Top-k稀疏注意力模块(TSAM)实现像素级稀疏跨模态交互；门控状态空间模块(GSSM)通过非线性门控单元增强线性复杂度SSM的时序表征；整体设计保持O(n)线性复杂度。

📊 效果

在运动去模糊、去雨、HDR增强三个任务共6个数据集上显著超越SOTA方法；内存消耗和计算成本大幅降低；代码和数据已开源。

🤖 AI 评价

将Mamba/状态空间模型引入事件相机图像重建是一个及时且有价值的工作。TSAM的top-k稀疏注意力设计巧妙，在保持效率的同时实现了有效的跨模态融合。GSSM增强了标准SSM的表达能力。实验覆盖多个任务和数据集，验证充分。线性复杂度带来的效率优势在实际部署中非常重要。

标签: 事件相机, 状态空间模型, 图像重建, 高效模型

6. VecCISC: Improving Confidence-Informed Self-Consistency with Reasoning Trace Clustering and Candidate Answer Selection

作者: James Petullo, Sonny George, Dylan Cashman, Nianwen Xue
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.08070v1
类别: cs.AI

🔍 核心内容

提出VecCISC框架，通过语义相似性过滤推理轨迹来降低Confidence-Informed Self-Consistency(CISC)的成本。CISC需要对每个候选答案调用critic LLM评估置信度，开销巨大。VecCISC筛选语义等价、退化或幻觉的推理轨迹，减少需要评估的候选数量，在5个跨领域数据集上减少47% token使用同时保持或超越CISC准确率。

❓ 解决的问题

加权多数投票(CISC)虽比标准自一致性更准确，但需要对每个候选答案的推理轨迹调用critic LLM计算置信度，二次LLM调用大幅增加了开销和成本。

🛠️ 方法

语义相似性度量筛选等价的推理轨迹；过滤退化和幻觉轨迹；自适应减少需critic评估的候选答案数量；轻量级框架无需额外训练。

📊 效果

在数学、化学、生物、常识推理、人文学科5个数据集上减少47%总token使用量；保持或超越CISC的准确率；跨领域验证充分。

🤖 AI 评价

这是一项非常实用的推理优化工作。问题定义清晰——CISC效果好但成本太高。语义相似性过滤的思路简单有效，47%的token节省在实际部署中意义重大。方法轻量且无需训练是重要优势。跨5个不同领域验证增强了结论的可靠性。局限在于主要降低成本而非提升准确率上限，对需要极致性能的场景帮助有限。

标签: 大语言模型, 自一致性, 推理优化, 成本降低

7. Proxy3D: Efficient 3D Representations for Vision-Language Models via Semantic Clustering and Alignment

作者: Jerry Jiang, Haowen Sun, Denis Gudovskiy, Yohei Nakata, Tomoyuki Okuno, Kurt Keutzer, Wenzhao Zheng
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.08064v1
类别: cs.CV

🔍 核心内容

提出Proxy3D方法，为视觉语言模型(VLM)引入紧凑而全面的3D代理表示。通过语义和几何编码器从视频帧提取场景特征，进行语义感知聚类获得3D空间中的一组代理。构建SpaceSpan数据集并采用多阶段训练策略将3D代理表示与VLM对齐。在更短的视觉序列下，在3D视觉问答、视觉定位和空间智能基准上达到竞争性或SOTA性能。

❓ 解决的问题

现有VLM空间智能方法沿用2D流程，使用像素对齐表示。基于对应关系的模型缺乏空间一致性，基于表示的模型虽有3D几何先验但视觉序列序列化效率低下。

🛠️ 方法

语义和几何编码器提取场景特征；语义感知聚类生成3D空间代理表示；构建SpaceSpan数据集；多阶段训练策略对齐3D代理与VLM；仅需视频帧作为输入。

📊 效果

使用更短视觉序列在3D视觉问答、视觉定位、通用空间智能基准上达到竞争性或SOTA性能；3D代理表示紧凑且全面。

🤖 AI 评价

将3D表示引入VLM是空间智能领域的重要方向。语义感知聚类生成代理的设计兼顾了紧凑性和信息量。SpaceSpan数据集的构建填补了训练数据空白。多阶段训练策略合理。使用更短序列达到SOTA非常 impressive，对实际应用中的效率至关重要。局限在于仅使用视频帧而非多视图图像或点云，3D信息的完整性可能受限。

标签: 视觉语言模型, 3D表示, 空间智能, 语义聚类

8. Zero-Shot Imagined Speech Decoding via Imagined-to-Listened MEG Mapping

作者: Maryam Maghsoudi, Shihab Shamma
评分: ⭐⭐⭐ (7/10)
链接: http://arxiv.org/abs/2605.08075v1
类别: cs.LG

🔍 核心内容

提出利用听语音时的丰富MEG记录来解码想象语音的新方法。采集了训练有素音乐家的配对听和想象MEG记录，开发三阶段解码流程：1)训练模型将想象MEG映射到听MEG；2)在听MEG上训练对比词解码器；3)将想象MEG通过映射流程得到对应听响应再解码。在留一被试上显著超越随机水平。

❓ 解决的问题

从非侵入式脑记录解码想象语音极具挑战性，因为想象数据集稀缺且难以在被试和会话间进行时间对齐。

🛠️ 方法

使用训练有素的音乐家改善跨条件时间对齐；三阶段解码：想象→听MEG映射、听MEG对比词解码、映射后解码；六种线性和神经映射模型；四种嵌入策略(语义、声学、语音)；基于排名的分析。

📊 效果

想象词解码显著超越随机水平；所有评估在留一被试上进行；性能随训练数据量增加而提升，表明方法可扩展到现实脑机接口场景。

🤖 AI 评价

这是一个极具前瞻性的脑机接口研究。利用’听’作为’想象’的代理来绕过数据稀缺问题的思路非常巧妙。三阶段流水线设计合理，留一被试评估严谨。使用音乐家作为被试是合理的实验设计选择。作为概念验证很成功，但样本量可能较小，距离实际应用还有较长路要走。

标签: 脑机接口, MEG, 语音解码, 神经科学

9. GRAPHLCP: Structure-Aware Localized Conformal Prediction on Graphs

作者: Peyman Baghershahi, Fangxin Wang, Debmalya Mandal, Sourav Medya
评分: ⭐⭐⭐ (7/10)
链接: http://arxiv.org/abs/2605.08074v1
类别: cs.LG

🔍 核心内容

提出GRAPHLCP框架，将图拓扑和节点间依赖显式融入保形预测的局部化和加权中。引入特征感知稠化步骤缓解稀疏图的局部性偏差，使用个性化PageRank核计算建模结构邻近性，实现拓扑依赖的锚点采样和校准加权。在多个回归和分类数据集上验证覆盖保证和条件覆盖性能。

❓ 解决的问题

保形预测在图神经网络上的应用困难，因为图的组合特性常导致预测不确定性和嵌入判别性不足。现有方法主要依赖嵌入空间邻近性进行局部化，对图结构不可靠且产生低效预测集。

🛠️ 方法

特征感知稠化缓解稀疏图局部性偏差；个性化PageRank核建模结构邻近性；拓扑依赖的锚点采样；校准加权捕获局部和远程依赖；适用于回归和分类任务。

📊 效果

在多个数据集上保证边际覆盖；在各种条件场景下高效实现良好的测试条件覆盖；相比嵌入空间方法显著提升预测集效率。

🤖 AI 评价

将图结构信息显式引入保形预测是一个有意义的改进。个性化PageRank作为结构邻近性度量选择恰当，特征感知稠化解决了稀疏图的关键问题。方法在回归和分类上都有效，适用范围广。理论保证(有限样本边际覆盖)扎实。局限在于实验数据集规模相对有限，大规模图(如社交网络、知识图谱)上的表现待验证。

标签: 图神经网络, 保形预测, 不确定性量化, 图机器学习

10. A Note on Non-Negative $L_1$-Approximating Polynomials

作者: Jane H. Lee, Anay Mehrotra, Manolis Zampetakis
评分: ⭐⭐⭐ (6/10)
链接: http://arxiv.org/abs/2605.08072v1
类别: cs.LG

🔍 核心内容

研究非负$L_1$逼近多项式的存在性问题。证明对于标准高斯分布下高斯表面积(GSA)不超过$\amma$的任意集合类，存在次数为$k=\ilde{O}(\amma^2/\arepsilon^2)$的非负多项式，在$L_1$范数下$\arepsilon$逼近其指示函数。这与无非负性约束的最佳已知界仅相差常数因子。

❓ 解决的问题

$L_1$逼近多项式在计算学习理论中广泛使用，但非负性约束下的逼近性质研究不足。非负逼近多项式在仅从正例进行平滑学习中有重要应用。

🛠️ 方法

利用高斯表面积(GSA)作为复杂度度量；证明有限GSA集合类存在满足逐点非负保证的$L_1$逼近多项式；次数界与无非负性约束的已知最佳界匹配。

📊 效果

证明$k=\ilde{O}(\amma^2/\arepsilon^2)$次数的非负多项式可实现$\arepsilon$逼近；逼近多项式值域包含于$[0,\nfty)$；与无约束界仅差常数因子。

🤖 AI 评价

这是一篇扎实的理论短注。将$L_1$逼近理论扩展到非负约束情形下，填补了理论空白。结果简洁优美，与无约束界的常数因子差距表明非负性并未带来本质困难。对计算学习理论中平滑学习等应用有直接意义。局限在于是纯理论结果，没有算法或实验验证。

标签: 计算学习理论, 逼近理论, 多项式逼近, 理论计算机科学

📈 今日统计

论文总数: 10 篇
数据来源: ArXiv RSS (cs.AI, cs.LG, cs.CL, cs.CV, cs.RO)
更新时间: 2026-05-12

本报告由 AI 自动生成，仅供参考。论文观点不代表本站立场。

📚 ArXiv 每日论文精选 | 2026-05-12

1. LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

2. Normalizing Trajectory Models

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

3. 123D: Unifying Multi-Modal Autonomous Driving Data at Scale

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

4. Conformal Path Reasoning: Trustworthy Knowledge Graph Question Answering via Path-Level Calibration

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

5. EmambaIR: Efficient Visual State Space Model for Event-guided Image Reconstruction

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

6. VecCISC: Improving Confidence-Informed Self-Consistency with Reasoning Trace Clustering and Candidate Answer Selection

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

7. Proxy3D: Efficient 3D Representations for Vision-Language Models via Semantic Clustering and Alignment

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

8. Zero-Shot Imagined Speech Decoding via Imagined-to-Listened MEG Mapping

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

9. GRAPHLCP: Structure-Aware Localized Conformal Prediction on Graphs

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

10. A Note on Non-Negative $L_1$-Approximating Polynomials

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

📈 今日统计