📚 ArXiv 每日论文精选 | 2026-05-12
自动精选今日 ArXiv 最新 AI/ML 论文,AI 深度解读核心内容、方法、效果与评价。
1. LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling
作者: Tong Zheng, Haolin Liu, Chengsong Huang, Huiwen Bao, Sheng Zhang, Rui Liu, Runpeng Dai, Ruibo Chen, …
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2605.08083v1
类别: cs.CL
🔍 核心内容
提出AutoTTS框架,将测试时缩放(TTS)策略从手工设计转变为自动发现。通过构建可控的发现环境,将宽度-深度TTS形式化为控制器综合问题,在预收集的推理轨迹上搜索最优策略。引入beta参数化和细粒度执行轨迹反馈提升发现效率,在数学推理基准上超越手工设计的强基线。
❓ 解决的问题
现有测试时缩放(TTS)策略主要依赖手工设计,研究者凭直觉设计推理模式和启发式规则,大量计算分配空间未被探索,限制了LLM推理性能的进一步提升。
🛠️ 方法
构建环境驱动的自动发现框架;将TTS视为控制器综合问题,在预收集轨迹上搜索分支、继续、探测、剪枝、停止等决策策略;引入beta参数化使搜索可处理;利用执行轨迹反馈帮助诊断失败原因。
📊 效果
在数学推理基准上发现的策略显著超越强手工设计基线;策略泛化到未见过的基准和模型规模;整个发现过程仅花费$39.9和160分钟。
🤖 AI 评价
这是一项非常有创新性的工作,将TTS策略设计从’ craftsmanship ‘提升为’ automated discovery ‘,范式转变意义重大。低成本($40/160分钟)的发现过程展示了极高的效率。 beta参数化和轨迹反馈的设计精巧。局限在于目前仅在数学推理上验证,其他领域(代码、创意写作等)的适用性待验证。
标签: 大语言模型, 测试时缩放, 自动发现, 推理优化
2. Normalizing Trajectory Models
作者: Jiatao Gu, Tianrong Chen, Ying Shen, David Berthelot, Shuangfei Zhai, Josh Susskind
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2605.08078v1
类别: cs.LG
🔍 核心内容
提出Normalizing Trajectory Models(NTM),将扩散模型的每一步反向过程建模为条件归一化流,实现精确似然训练。架构上在每个步骤内使用浅层可逆块,跨轨迹使用深度并行预测器。支持从头训练或从预训练流匹配模型初始化。精确轨迹似然还实现了自蒸馏,4步即可生成高质量样本。
❓ 解决的问题
扩散模型将采样分解为多个高斯去噪步骤,当压缩为少量粗粒度转换时该假设失效。现有少步方法通过蒸馏、一致性训练或对抗目标解决,但牺牲了似然框架。
🛠️ 方法
将每步反向过程建模为条件归一化流;结合浅层可逆块和深度并行预测器;端到端网络可从头训练或从预训练流匹配模型初始化;利用精确轨迹似然进行自蒸馏训练轻量去噪器。
📊 效果
在文本到图像基准上,NTM仅用4步采样即可匹配或超越强图像生成基线;同时独特地保留了生成轨迹上的精确似然;自蒸馏实现4步高质量采样。
🤖 AI 评价
理论贡献突出,在保留精确似然的同时实现少步生成是一个重要突破。归一化流与扩散模型的结合思路新颖,架构设计兼顾了可逆性和表达能力。4步达到SOTA性能非常 impressive。局限在于实验主要在文本到图像上,其他模态(视频、3D等)的适用性有待探索。
标签: 扩散模型, 归一化流, 少步生成, 图像生成
3. 123D: Unifying Multi-Modal Autonomous Driving Data at Scale
作者: Daniel Dauner, Valentin Charraut, Bastian Berle, Tianyu Li, Long Nguyen, Jiabao Wang, Changhui Jing,…
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.08084v1
类别: cs.CV
🔍 核心内容
提出123D开源框架,通过统一API整合多模态自动驾驶数据集。将各模态存储为独立时间戳事件流,支持同步/异步访问。整合8个真实数据集(3300小时/9万公里)及1个合成数据集,提供数据分析与可视化工具,并展示跨数据集3D目标检测迁移和强化学习规划应用。
❓ 解决的问题
自动驾驶数据集模态多样(摄像头、激光雷达、自车状态等)、格式碎片化、同步方案各异,标注规范不一致导致无法跨数据集训练或评估泛化能力。
🛠️ 方法
采用独立时间戳事件流存储各模态,无预设采样率;提供单一API接口;整合8个真实世界数据集和1个合成数据集;提供数据分析、可视化、跨数据集迁移和强化学习规划工具链。
📊 效果
整合8个数据集共3300小时、90000公里驾驶数据;实现跨数据集3D目标检测迁移和强化学习规划应用;提供系统性的标注统计和位姿/标定精度评估。
🤖 AI 评价
这是一项非常实用的基础设施工作。自动驾驶领域数据孤岛问题严重,123D通过统一API和数据格式大大降低了研究者使用多数据集的门槛。将模态抽象为时间戳事件流的设计优雅且通用。开源特性将促进社区协作。缺点是主要是工程整合工作,创新性相对有限,但实用价值极高。
标签: 自动驾驶, 多模态数据, 数据集整合, 开源框架
4. Conformal Path Reasoning: Trustworthy Knowledge Graph Question Answering via Path-Level Calibration
作者: Shuhang Lin, Chuhao Zhou, Xiao Lin, Zihan Dong, Kuan Lu, Zhencan Peng, Jie Yin, Dimitris N. Metaxas
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.08077v1
类别: cs.CL
🔍 核心内容
提出Conformal Path Reasoning(CPR)框架,解决知识图谱问答(KGQA)中预测集覆盖保证不可靠的问题。创新包括:在路径级分数上进行查询级保形校准,保持可交换性;提出Residual Conformal Value Network(RCVNet)通过PUCT引导探索学习判别性路径级非一致性分数。在基准上显著提升覆盖率并减小预测集。
❓ 解决的问题
KGQA虽具可解释性,但现有方法无法提供可靠的答案覆盖保证。保形预测(CP)虽有统计保证,但现有方法在校准有效性和分数判别性方面存在缺陷,导致覆盖保证被破坏且预测集过大。
🛠️ 方法
查询级保形校准作用于路径级分数,保持可交换性同时生成路径预测集;RCVNet轻量模块通过PUCT引导探索学习判别性非一致性分数;路径级别的不确定性量化。
📊 效果
相比保形基线,实证覆盖率提升34%,平均预测集大小减少40%;在满足覆盖保证的同时显著压缩答案集。
🤖 AI 评价
将保形预测从标准分类/回归拓展到知识图谱的路径推理是一个重要进展。查询级校准+路径级分数的两层设计精巧,RCVNet通过强化学习探索学习判别性分数很有创意。40%的预测集缩减在实际应用中意义重大。局限在于目前仅在标准KGQA基准上测试,更复杂知识图谱和开放域场景的适用性待验证。
标签: 知识图谱, 保形预测, 问答系统, 不确定性量化
5. EmambaIR: Efficient Visual State Space Model for Event-guided Image Reconstruction
作者: Wei Yu, Yunhang Qian
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.08073v1
类别: cs.AI
🔍 核心内容
提出EmambaIR,首个专为事件引导图像重建设计的视觉状态空间模型。针对CNN无法捕获全局特征和ViT计算复杂度过高的问题,引入跨模态Top-k稀疏注意力模块(TSAM)进行像素级稀疏注意力引导跨模态交互,以及门控状态空间模块(GSSM)增强SSM时序表征。在6个数据集的3个任务上达到SOTA且大幅降低计算成本。
❓ 解决的问题
事件相机图像重建方法主要依赖CNN和ViT,但CNN难以捕获全局特征关联,ViT具有二次计算复杂度,限制了在高分辨率场景的应用。
🛠️ 方法
Top-k稀疏注意力模块(TSAM)实现像素级稀疏跨模态交互;门控状态空间模块(GSSM)通过非线性门控单元增强线性复杂度SSM的时序表征;整体设计保持O(n)线性复杂度。
📊 效果
在运动去模糊、去雨、HDR增强三个任务共6个数据集上显著超越SOTA方法;内存消耗和计算成本大幅降低;代码和数据已开源。
🤖 AI 评价
将Mamba/状态空间模型引入事件相机图像重建是一个及时且有价值的工作。TSAM的top-k稀疏注意力设计巧妙,在保持效率的同时实现了有效的跨模态融合。GSSM增强了标准SSM的表达能力。实验覆盖多个任务和数据集,验证充分。线性复杂度带来的效率优势在实际部署中非常重要。
标签: 事件相机, 状态空间模型, 图像重建, 高效模型
6. VecCISC: Improving Confidence-Informed Self-Consistency with Reasoning Trace Clustering and Candidate Answer Selection
作者: James Petullo, Sonny George, Dylan Cashman, Nianwen Xue
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.08070v1
类别: cs.AI
🔍 核心内容
提出VecCISC框架,通过语义相似性过滤推理轨迹来降低Confidence-Informed Self-Consistency(CISC)的成本。CISC需要对每个候选答案调用critic LLM评估置信度,开销巨大。VecCISC筛选语义等价、退化或幻觉的推理轨迹,减少需要评估的候选数量,在5个跨领域数据集上减少47% token使用同时保持或超越CISC准确率。
❓ 解决的问题
加权多数投票(CISC)虽比标准自一致性更准确,但需要对每个候选答案的推理轨迹调用critic LLM计算置信度,二次LLM调用大幅增加了开销和成本。
🛠️ 方法
语义相似性度量筛选等价的推理轨迹;过滤退化和幻觉轨迹;自适应减少需critic评估的候选答案数量;轻量级框架无需额外训练。
📊 效果
在数学、化学、生物、常识推理、人文学科5个数据集上减少47%总token使用量;保持或超越CISC的准确率;跨领域验证充分。
🤖 AI 评价
这是一项非常实用的推理优化工作。问题定义清晰——CISC效果好但成本太高。语义相似性过滤的思路简单有效,47%的token节省在实际部署中意义重大。方法轻量且无需训练是重要优势。跨5个不同领域验证增强了结论的可靠性。局限在于主要降低成本而非提升准确率上限,对需要极致性能的场景帮助有限。
标签: 大语言模型, 自一致性, 推理优化, 成本降低
7. Proxy3D: Efficient 3D Representations for Vision-Language Models via Semantic Clustering and Alignment
作者: Jerry Jiang, Haowen Sun, Denis Gudovskiy, Yohei Nakata, Tomoyuki Okuno, Kurt Keutzer, Wenzhao Zheng
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2605.08064v1
类别: cs.CV
🔍 核心内容
提出Proxy3D方法,为视觉语言模型(VLM)引入紧凑而全面的3D代理表示。通过语义和几何编码器从视频帧提取场景特征,进行语义感知聚类获得3D空间中的一组代理。构建SpaceSpan数据集并采用多阶段训练策略将3D代理表示与VLM对齐。在更短的视觉序列下,在3D视觉问答、视觉定位和空间智能基准上达到竞争性或SOTA性能。
❓ 解决的问题
现有VLM空间智能方法沿用2D流程,使用像素对齐表示。基于对应关系的模型缺乏空间一致性,基于表示的模型虽有3D几何先验但视觉序列序列化效率低下。
🛠️ 方法
语义和几何编码器提取场景特征;语义感知聚类生成3D空间代理表示;构建SpaceSpan数据集;多阶段训练策略对齐3D代理与VLM;仅需视频帧作为输入。
📊 效果
使用更短视觉序列在3D视觉问答、视觉定位、通用空间智能基准上达到竞争性或SOTA性能;3D代理表示紧凑且全面。
🤖 AI 评价
将3D表示引入VLM是空间智能领域的重要方向。语义感知聚类生成代理的设计兼顾了紧凑性和信息量。SpaceSpan数据集的构建填补了训练数据空白。多阶段训练策略合理。使用更短序列达到SOTA非常 impressive,对实际应用中的效率至关重要。局限在于仅使用视频帧而非多视图图像或点云,3D信息的完整性可能受限。
标签: 视觉语言模型, 3D表示, 空间智能, 语义聚类
8. Zero-Shot Imagined Speech Decoding via Imagined-to-Listened MEG Mapping
作者: Maryam Maghsoudi, Shihab Shamma
评分: ⭐⭐⭐ (7/10)
链接: http://arxiv.org/abs/2605.08075v1
类别: cs.LG
🔍 核心内容
提出利用听语音时的丰富MEG记录来解码想象语音的新方法。采集了训练有素音乐家的配对听和想象MEG记录,开发三阶段解码流程:1)训练模型将想象MEG映射到听MEG;2)在听MEG上训练对比词解码器;3)将想象MEG通过映射流程得到对应听响应再解码。在留一被试上显著超越随机水平。
❓ 解决的问题
从非侵入式脑记录解码想象语音极具挑战性,因为想象数据集稀缺且难以在被试和会话间进行时间对齐。
🛠️ 方法
使用训练有素的音乐家改善跨条件时间对齐;三阶段解码:想象→听MEG映射、听MEG对比词解码、映射后解码;六种线性和神经映射模型;四种嵌入策略(语义、声学、语音);基于排名的分析。
📊 效果
想象词解码显著超越随机水平;所有评估在留一被试上进行;性能随训练数据量增加而提升,表明方法可扩展到现实脑机接口场景。
🤖 AI 评价
这是一个极具前瞻性的脑机接口研究。利用’听’作为’想象’的代理来绕过数据稀缺问题的思路非常巧妙。三阶段流水线设计合理,留一被试评估严谨。使用音乐家作为被试是合理的实验设计选择。作为概念验证很成功,但样本量可能较小,距离实际应用还有较长路要走。
标签: 脑机接口, MEG, 语音解码, 神经科学
9. GRAPHLCP: Structure-Aware Localized Conformal Prediction on Graphs
作者: Peyman Baghershahi, Fangxin Wang, Debmalya Mandal, Sourav Medya
评分: ⭐⭐⭐ (7/10)
链接: http://arxiv.org/abs/2605.08074v1
类别: cs.LG
🔍 核心内容
提出GRAPHLCP框架,将图拓扑和节点间依赖显式融入保形预测的局部化和加权中。引入特征感知稠化步骤缓解稀疏图的局部性偏差,使用个性化PageRank核计算建模结构邻近性,实现拓扑依赖的锚点采样和校准加权。在多个回归和分类数据集上验证覆盖保证和条件覆盖性能。
❓ 解决的问题
保形预测在图神经网络上的应用困难,因为图的组合特性常导致预测不确定性和嵌入判别性不足。现有方法主要依赖嵌入空间邻近性进行局部化,对图结构不可靠且产生低效预测集。
🛠️ 方法
特征感知稠化缓解稀疏图局部性偏差;个性化PageRank核建模结构邻近性;拓扑依赖的锚点采样;校准加权捕获局部和远程依赖;适用于回归和分类任务。
📊 效果
在多个数据集上保证边际覆盖;在各种条件场景下高效实现良好的测试条件覆盖;相比嵌入空间方法显著提升预测集效率。
🤖 AI 评价
将图结构信息显式引入保形预测是一个有意义的改进。个性化PageRank作为结构邻近性度量选择恰当,特征感知稠化解决了稀疏图的关键问题。方法在回归和分类上都有效,适用范围广。理论保证(有限样本边际覆盖)扎实。局限在于实验数据集规模相对有限,大规模图(如社交网络、知识图谱)上的表现待验证。
标签: 图神经网络, 保形预测, 不确定性量化, 图机器学习
10. A Note on Non-Negative $L_1$-Approximating Polynomials
作者: Jane H. Lee, Anay Mehrotra, Manolis Zampetakis
评分: ⭐⭐⭐ (6/10)
链接: http://arxiv.org/abs/2605.08072v1
类别: cs.LG
🔍 核心内容
研究非负$L_1$逼近多项式的存在性问题。证明对于标准高斯分布下高斯表面积(GSA)不超过$\amma$的任意集合类,存在次数为$k=\ilde{O}(\amma^2/\arepsilon^2)$的非负多项式,在$L_1$范数下$\arepsilon$逼近其指示函数。这与无非负性约束的最佳已知界仅相差常数因子。
❓ 解决的问题
$L_1$逼近多项式在计算学习理论中广泛使用,但非负性约束下的逼近性质研究不足。非负逼近多项式在仅从正例进行平滑学习中有重要应用。
🛠️ 方法
利用高斯表面积(GSA)作为复杂度度量;证明有限GSA集合类存在满足逐点非负保证的$L_1$逼近多项式;次数界与无非负性约束的已知最佳界匹配。
📊 效果
证明$k=\ilde{O}(\amma^2/\arepsilon^2)$次数的非负多项式可实现$\arepsilon$逼近;逼近多项式值域包含于$[0,\nfty)$;与无约束界仅差常数因子。
🤖 AI 评价
这是一篇扎实的理论短注。将$L_1$逼近理论扩展到非负约束情形下,填补了理论空白。结果简洁优美,与无约束界的常数因子差距表明非负性并未带来本质困难。对计算学习理论中平滑学习等应用有直接意义。局限在于是纯理论结果,没有算法或实验验证。
标签: 计算学习理论, 逼近理论, 多项式逼近, 理论计算机科学
📈 今日统计
- 论文总数: 10 篇
- 数据来源: ArXiv RSS (cs.AI, cs.LG, cs.CL, cs.CV, cs.RO)
- 更新时间: 2026-05-12
本报告由 AI 自动生成,仅供参考。论文观点不代表本站立场。