ArXiv 每日论文精选 | 2026-05-01

📚 ArXiv 每日论文精选 | 2026-05-01

自动精选今日 ArXiv 最新 AI/ML 论文,AI 深度解读核心内容、方法、效果与评价。


1. Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

作者: Gongbo Zhang, Wen Wang, Ye Tian, Li Yuan
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2604.26951v1
类别: cs.LG

🔍 核心内容

提出TIDE框架,首次实现跨架构扩散大语言模型(dLLM)的知识蒸馏。通过三个核心组件(TIDAL、CompDemo、Reverse CALM)解决教师与学生模型在架构、注意力机制和分词器上的差异问题,将8B/16B大模型蒸馏到0.6B小模型。

❓ 解决的问题

现有dLLM蒸馏方法仅限于单一架构内部,无法处理跨架构场景(不同架构、注意力机制、分词器)。大参数量的dLLM部署成本高,需要高效的压缩方案。

🛠️ 方法

TIDAL动态调节蒸馏强度;CompDemo通过互补掩码分割丰富上下文;Reverse CALM实现跨分词器的块级似然匹配。支持异构管道蒸馏。

📊 效果

在8个基准测试上平均提升1.53分;HumanEval代码生成得分48.78,相比自回归基线32.3提升显著;仅用0.6B参数达到接近大模型的性能。

🤖 AI 评价

创新性极高,首次解决跨架构dLLM蒸馏难题。实用性强,可显著降低部署成本。方法设计精巧,三个组件各司其职。局限在于仅在特定架构组合上验证,泛化性有待更多实验验证。对边缘设备部署和实时应用具有重要意义。

标签: 知识蒸馏, 扩散模型, 大语言模型, 模型压缩, 跨架构迁移


2. Select to Think: Unlocking SLM Potential with Local Sufficiency

作者: Wenxuan Ye, Yangyang Zhang, Xueli An, Georg Carle, Yunpu Ma
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2604.26940v1
类别: cs.CL

🔍 核心内容

提出Select to Think (S2T)框架,通过’局部充分性’发现——在推理分歧点,LLM的首选token总在SLM的top-K候选中——将LLM角色从生成转为选择,并蒸馏选择逻辑到SLM实现自主重排序。

❓ 解决的问题

SLM推理能力弱于LLM;现有方法要么调用LLM带来高延迟成本,要么蒸馏受限于SLM容量难以模仿复杂分布。需要在性能和效率间取得平衡。

🛠️ 方法

发现局部充分性现象;S2T框架让LLM从SLM候选中选择而非直接生成;S2T-LOCAL将选择能力蒸馏到SLM;top-K候选重排序策略。

📊 效果

1.5B SLM的top-8候选以95%命中率捕获32B LLM的选择;平均提升贪婪解码24.1%;单轨迹效率达到8路径自一致性效果。

🤖 AI 评价

洞察深刻,局部充分性的发现很有价值。方法实用,将复杂生成问题简化为选择问题。对边缘部署和资源受限场景意义重大。局限在于仅在特定规模模型上验证,更大规模SLM(如7B+)的效果未知。

标签: 小语言模型, 知识蒸馏, 推理优化, 模型效率, 边缘计算


3. Three-Step Nav: A Hierarchical Global-Local Planner for Zero-Shot Vision-and-Language Navigation

作者: Wanrong Zheng, Yunhao Ge, Laurent Itti
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2604.26946v1
类别: cs.CV

🔍 核心内容

提出Three-Step Nav,一种零样本视觉语言导航(VLN)的分层全局-局部规划器。通过’前瞻-当下-回顾’三步协议解决MLLM驱动导航器的漂移、提前停止等问题,无需微调即可插入现有VLN流程。

❓ 解决的问题

基于MLLM的零样本VLN智能体存在三大问题:容易偏离航线、提前停止、整体成功率低。现有方法缺乏全局规划和轨迹修正机制。

🛠️ 方法

三步协议:1)前瞻提取全局地标和粗略规划;2)当下对齐当前观察与下一子目标;3)回顾审计整个轨迹纠正累积漂移。纯推理时方法,无需训练。

📊 效果

在R2R-CE和RxR-CE数据集上达到SOTA零样本性能;即插即用,最小化额外开销;开源代码可用。

🤖 AI 评价

创新性强,将人类导航的认知过程形式化为三步协议。实用性高,无需训练即可提升现有系统。方法简洁优雅,符合直觉。局限在于仅在室内导航场景验证,户外复杂环境的适用性未知。对机器人导航和具身智能有重要价值。

标签: 视觉语言导航, 多模态大模型, 零样本学习, 机器人导航, 具身智能


4. Hyper Input Convex Neural Networks for Shape Constrained Learning and Optimal Transport

作者: Shayan Hundrieser, Insung Kong, Johannes Schmidt-Hieber
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2604.26942v1
类别: cs.LG

🔍 核心内容

提出超输入凸神经网络(HyCNNs),结合Maxout网络和输入凸神经网络(ICNNs)的优势,用于学习凸函数。理论证明其以指数级更少的参数即可达到ICNNs的精度,并在最优传输任务上验证了其有效性。

❓ 解决的问题

ICNNs虽然能保证凸性,但参数量大、训练不稳定、难以利用深度;传统MLP无法保证凸性约束;高维最优传输问题计算复杂。

🛠️ 方法

融合Maxout和ICNN架构;保持输入凸性的同时支持深度堆叠;理论分析参数效率;应用于凸回归、插值和最优传输。

📊 效果

理论证明参数需求指数级减少;在合成实验中预测性能优于ICNNs和MLPs;在高维最优传输和单细胞RNA测序数据上超越基线方法。

🤖 AI 评价

理论贡献扎实,有严格的数学证明。方法巧妙结合了两种网络的优势。在计算生物学(单细胞RNA)应用展示了实用价值。局限在于主要是理论工作,大规模实际应用验证较少。对优化和生成模型领域有理论意义。

标签: 凸优化, 神经网络架构, 最优传输, 理论机器学习, 计算生物学


5. World2VLM: Distilling World Model Imagination into VLMs for Dynamic Spatial Reasoning

作者: Wanyue Zhang, Wenxiang Wu, Wang Xu, Jiaxin Luo, Helu Zhi, Yibin Huang, Shuo Ren, Zitao Liu, Jiajun Z…
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2604.26934v1
类别: cs.CV

🔍 核心内容

提出World2VLM框架,将世界模型的空间想象力蒸馏到VLM中。通过视图一致的世界模型合成几何对齐的未来视图,为前向(动作到结果)和逆向(结果到动作)空间推理提供结构化监督,消除推理时的高额计算开销。

❓ 解决的问题

VLM在动态空间推理上表现不佳;现有方法要么缺乏显式的运动条件状态转移建模,要么在推理时耦合世界模型带来巨大计算开销。

🛠️ 方法

世界模型作为训练时教师;视图一致的图像合成;参数化相机轨迹;两阶段后训练;前向和逆向空间推理监督。

📊 效果

在SAT-Real、SAT-Synthesized、VSI-Bench、MindCube等基准上持续提升;超越推理时耦合世界模型的方法;无需昂贵的推理时生成。

🤖 AI 评价

思路新颖,将世界模型从推理工具转变为训练教师。解决了空间推理和计算效率的矛盾。多基准验证充分。对具身智能和机器人视觉有重要价值。局限在于依赖世界模型质量,复杂动态场景的泛化能力有待验证。

标签: 视觉语言模型, 世界模型, 空间推理, 知识蒸馏, 具身智能


6. ClassEval-Pro: A Cross-Domain Benchmark for Class-Level Code Generation

作者: Yeheng Chen, Chaoxiang Xie, Yuling Shi, Wenhao Zeng, Yongpan Wang, Hongyu Zhang, Xiaodong Gu
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2604.26923v1
类别: cs.CL

🔍 核心内容

推出ClassEval-Pro基准测试,包含300个跨11个领域的类级代码生成任务。通过自动化三阶段流程构建,结合复杂度增强、跨域类组合和2025年后真实GitHub代码,解决现有评估在函数级和仓库级之间的空白。

❓ 解决的问题

类级代码生成(从规范构建完整结构化类)评估不足;现有基准要么限于孤立函数,要么人工构建难以扩展且易受污染;缺乏对组合式代码创建的系统性评估。

🛠️ 方法

自动化三阶段构建流程;复杂度增强;跨域类组合;集成最新真实代码;LLM Judge Ensemble验证;>90%行覆盖率测试;多策略对比评估。

📊 效果

300个任务覆盖11个领域;最佳模型Pass@1仅45.6%;强弱模型差距17.7分;bottom-up策略提升弱模型9.4分;错误分析揭示逻辑错误(56.2%)和依赖错误(38.0%)为主因。

🤖 AI 评价

高质量基准工作,填补了代码生成评估的重要空白。自动化构建方法可扩展且减少污染。实验设计全面,发现有价值。对代码生成模型发展有重要推动作用。局限在于仅评估Python,其他语言适用性未知。

标签: 代码生成, 基准测试, 软件工程, 类级合成, 代码评估


7. ProcFunc: Function-Oriented Abstractions for Procedural 3D Generation in Python

作者: Alexander Raistrick, Karhan Kayan, Jack Nugent, David Yan, Lingjie Mei, Meenal Parakh, Hongyu Wen, D…
评分: ⭐⭐⭐ (7/10)
链接: http://arxiv.org/abs/2604.26943v1
类别: cs.CV

🔍 核心内容

推出ProcFunc库,基于Blender的Python程序化3D生成工具。提供易用的函数库简化程序化生成代码的创建、组合和分析,支持VLM编辑材质和几何代码,并开发了室内场景生成器作为示例应用。

❓ 解决的问题

3D合成数据生成门槛高,现有工具复杂难用;VLM在生成程序化代码时错误率高;缺乏标准化的程序化生成抽象层。

🛠️ 方法

函数式抽象封装Blender底层API;语义组件的组合式架构;支持VLM进行代码编辑和生成;提供完整的室内场景生成示例。

📊 效果

显著降低VLM生成程序化代码的错误率;支持大规模多样化训练数据生成;室内生成器在细节、效率和多样性上表现优异;开源代码可用。

🤖 AI 评价

实用性很强的工程工作,降低了3D数据生成门槛。创新点在于将VLM与程序化生成结合,实现AI辅助内容创作。对计算机视觉训练数据合成有重要价值。局限在于目前仅支持Blender,扩展性有待验证。

标签: 3D生成, 程序化生成, Blender, 合成数据, VLM应用


8. Learning Over-Relaxation Policies for ADMM with Convergence Guarantees

作者: Junan Lin, Paul J. Goulart, Luca Furieri
评分: ⭐⭐⭐ (7/10)
链接: http://arxiv.org/abs/2604.26932v1
类别: cs.LG

🔍 核心内容

提出学习ADMM超松弛策略的方法,针对模型预测控制(MPC)等需要重复求解相似优化问题的场景。在线学习松弛参数更新策略,避免惩罚参数更新带来的矩阵重构开销,并提供收敛性保证。

❓ 解决的问题

ADMM性能高度依赖惩罚和松弛参数选择;MPC等场景需要重复求解相似问题;惩罚参数更新触发矩阵重构计算开销大;缺乏自适应参数调整的理论保证。

🛠️ 方法

在线学习松弛参数策略;保持惩罚参数固定避免重构;建立时变参数下的收敛性理论;在OSQP架构上实现。

📊 效果

在标准二次规划基准上,学习的策略同时减少迭代次数和墙钟时间;超越基线OSQP性能;提供收敛性保证。

🤖 AI 评价

理论与实践结合良好,有严格的收敛性证明。针对MPC等实际应用场景,工程价值高。方法简洁有效。局限在于仅在二次规划上验证,更一般凸优化问题的适用性需进一步研究。对实时控制和优化求解器有实际意义。

标签: 凸优化, ADMM, 模型预测控制, 在线学习, 优化求解器


9. On the Learning Curves of Revenue Maximization

作者: Steve Hanneke, Alkis Kalavasis, Shay Moran, Grigoris Velegkas
评分: ⭐⭐⭐ (7/10)
链接: http://arxiv.org/abs/2604.26922v1
类别: cs.LG

🔍 核心内容

开创性地研究收益最大化问题的学习曲线,在单物品单买家设定下给出近乎完整的刻画。证明无分布限制时存在贝叶斯一致算法但收敛任意慢;最优收益由有限价格实现时最优收敛率约$1/\sqrt{n}$;离散值分布时几乎指数级快速收敛。

❓ 解决的问题

现有收益最大化研究采用无分布视角,导致误差界无法捕捉学习曲线形状;缺乏对收益最大化学习曲线的系统性理解;PAC框架下无法达到某些收敛率。

🛠️ 方法

理论分析学习曲线衰减速率;区分不同分布假设下的情况;证明存在性和收敛率界限;对比分布无关和分布相关设定。

📊 效果

无限制时贝叶斯一致但收敛任意慢;有限价格最优时$1/\sqrt{n}$收敛率;离散分布时几乎指数级收敛;揭示PAC框架的局限性。

🤖 AI 评价

理论贡献重要,开创了收益最大化学习曲线研究。结果深刻,揭示了分布假设对学习率的巨大影响。数学严谨。局限在于仅考虑单物品单买家简单设定,更复杂拍卖机制的推广是开放问题。对拍卖理论和机器学习交叉领域有价值。

标签: 学习理论, 拍卖理论, 收益最大化, 学习曲线, 理论机器学习


10. A Note on How to Remove the $\ln\ln T$ Term from the Squint Bound

作者: Francesco Orabona
评分: ⭐⭐ (5/10)
链接: http://arxiv.org/abs/2604.26926v1
类别: cs.LG

🔍 核心内容

技术短文,证明shifted KT potentials等价于修改Krichevsky-Trofimov算法的先验,并将此技术应用于消除Squint算法数据无关界中的$\ln\ln T$因子。

❓ 解决的问题

在线学习中专家边界存在$\ln\ln T$冗余因子;Squint算法的数据无关界也有类似问题;需要更紧致的理论界。

🛠️ 方法

分析shifted KT potentials与KT算法先验的关系;将技术推广到Squint算法;改进理论边界。

📊 效果

消除了Squint算法中的$\ln\ln T$因子;提供了更紧致的理论保证;澄清了不同方法间的联系。

🤖 AI 评价

纯理论技术笔记,贡献在于改进理论界和澄清方法联系。对在线学习理论社区有价值,但实用影响有限。作为短文,深度和广度自然受限。适合对在线学习理论边界感兴趣的读者。

标签: 在线学习, 理论机器学习, 专家算法, 学习理论, 技术笔记


📈 今日统计

  • 论文总数: 10 篇
  • 数据来源: ArXiv RSS (cs.AI, cs.LG, cs.CL, cs.CV, cs.RO)
  • 更新时间: 2026-05-01

本报告由 AI 自动生成,仅供参考。论文观点不代表本站立场。