ArXiv 每日论文精选 | 2026-04-28

📚 ArXiv 每日论文精选 | 2026-04-28

自动精选今日 ArXiv 最新 AI/ML 论文,AI 深度解读核心内容、方法、效果与评价。


1. Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection

作者: Sijie Li, Shanda Li, Haowei Lin, Weiwei Sun, Ameet Talwalkar, Yiming Yang
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2604.22753v1
类别: cs.LG

🔍 核心内容

研究如何将扩展定律拟合问题转化为预算感知的序列实验设计问题。在有限的实验预算下,智能选择哪些实验来运行,以最大化在高成本目标区域的外推准确性。提出了一种基于不确定性的方法来序列分配实验预算。

❓ 解决的问题

拟合扩展定律本身可能需要数百万美元的计算成本。如何在不消耗全部预算的情况下,选择最有信息量的试点实验来准确预测大规模训练的性能。

🛠️ 方法

将扩展定律拟合建模为预算感知的序列实验设计问题。提出不确定性感知方法,根据对目标区域外推的效用价值来选择实验。使用异构成本模型来处理不同规模的实验成本差异。

📊 效果

在多个扩展定律任务基准上,该方法仅用约10%的总训练预算就能达到接近使用全部实验集拟合的性能,显著优于经典的设计基线方法。

🤖 AI 评价

这是一项极具实用价值的研究。扩展定律是AI基础设施规划的核心工具,但传统方法成本高昂。该研究提出的主动实验选择方法可以大幅降低研究成本,同时保持预测准确性。创新性在于将实验设计理论应用于扩展定律拟合。缺点是方法可能对某些特定领域的扩展定律需要额外调整。

标签: Scaling Law, 实验设计, 预算优化, 机器学习效率, 成本削减


2. How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks

作者: Longju Bai, Zhemin Huang, Xingyao Wang, Jiao Sun, Rada Mihalcea, Erik Brynjolfsson, Alex Pentland, J…
评分: ⭐⭐⭐⭐ (9/10)
链接: http://arxiv.org/abs/2604.22750v1
类别: cs.CL

🔍 核心内容

首次系统研究AI Agent在编码任务中的token消耗模式。分析了8个前沿LLM在SWE-bench Verified上的轨迹,评估模型预测自身token成本的能力。发现Agent任务比代码推理消耗多1000倍token,且token使用量与准确率无显著正相关。

❓ 解决的问题

随着AI Agent的广泛应用,token消耗成本急剧上升。开发者需要了解:(1) token花在哪里?(2) 哪些模型更token高效?(3) Agent能否预测自己的token使用量?

🛠️ 方法

在SWE-bench Verified基准上分析8个前沿LLM的Agent轨迹。测量输入/输出token分布、成本变化性、不同模型间的效率差异。评估模型通过自我提示预测token使用的能力。

📊 效果

(1) Agent任务消耗token是代码推理的1000倍,输入token主导成本;(2) 同任务token使用可相差30倍,更高成本不带来更高准确率;(3) Kimi-K2和Claude-Sonnet-4.5比GPT-5多消耗150万token;(4) 模型无法准确预测自己的token使用(最大相关性0.39),系统性低估实际成本。

🤖 AI 评价

这是一项非常及时和重要的研究。随着AI Agent的普及,成本控制成为关键问题。该研究揭示了几个反直觉的发现:token使用高度随机、与准确率脱钩、模型无法自我预测。这些发现对Agent系统的经济性设计有重要指导意义。研究方法严谨,样本量大。局限性在于仅针对编码任务,其他领域可能有不同模式。

标签: AI Agent, Token成本, 经济学分析, SWE-bench, 效率评估


3. Representational Harms in LLM-Generated Narratives Against Global Majority Nationalities

作者: Ilana Nguyen, Harini Suresh, Thema Monroe-White, Evan Shieh
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2604.22749v1
类别: cs.CL

🔍 核心内容

研究LLM在开放叙事生成中如何描绘不同国家身份。发现LLM对全球多数国家(非西方)存在持续的表征伤害,包括有害刻板印象、抹除和单一化描绘。少数化国家身份在权力中性故事中代表性不足,但在从属角色描绘中过度代表。

❓ 解决的问题

LLM越来越多用于从日常到高风险的应用(如庇护寻求者模拟面试),但存在编码和传播对非主导社区有害偏见的风险。需要评估LLM如何描绘全球多样化个体。

🛠️ 方法

设计开放叙事生成提示,评估主流LLM对国家起源身份的描绘。分析故事中的权力分布、角色类型、刻板印象模式。测试美国中心偏见是否可以通过提示工程缓解。

📊 效果

发现持续的按国家起源的表征伤害:(1) 少数化国家身份在权力中性故事中代表性不足,在从属角色中过度代表(比主导描绘高50倍);(2) 当提示中出现美国国籍线索时,伤害程度加剧;(3) 伤害不能仅用谄媚解释,即使替换为非美国身份,美国中心偏见仍然存在。

🤖 AI 评价

这是一项具有重要社会意义的研究,揭示了LLM中深层的文化偏见问题。研究填补了全球多数国家视角的空白,挑战了美国中心化的AI系统无批判采用的现状。方法设计合理,发现令人警醒。研究呼吁以全球多数视角为中心的方法论,具有政策影响价值。局限性在于样本范围,未来需要更多语言和文化的覆盖。

标签: AI伦理, 偏见, 文化多样性, LLM安全, 表征伤害


4. Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

作者: Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, Lingdong Kong, Jize Zhang, Teng Tu, Weijian Ma, Ziqi…
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2604.22748v1
类别: cs.AI

🔍 核心内容

提出’层次×法则’分类法来统一理解世界模型研究。定义三个能力层次:L1预测器(单步局部转换)、L2模拟器(多步动作条件推演)、L3演化器(自主修正模型)。识别四个法则领域:物理、数字、社交、科学。综合400+工作,总结100+代表性系统。

❓ 解决的问题

AI系统从文本生成转向通过持续交互实现目标,建模环境动态成为核心瓶颈。‘世界模型’一词在不同研究社区有不同含义,缺乏统一框架来理解和评估。

🛠️ 方法

构建’层次×法则’二维分类法。第一轴定义三个递增的能力层次,第二轴识别四个不同的法则领域。使用此框架综合分析模型强化学习、视频生成、Web/GUI Agent、多智能体社交模拟和AI科学发现等领域。

📊 效果

提供了世界模型研究的统一路线图,连接了此前孤立的社区。分析了各层次-领域组合的方法、失败模式和评估实践。提出以决策为中心的评估原则和最小可复现评估包。为未来架构指导、开放问题和治理挑战提供框架。

🤖 AI 评价

这是一项宏大的综述性工作,对世界模型这一关键但混乱的领域进行了系统性梳理。分类法设计精巧,能够涵盖广泛的研究方向。价值在于建立了共同语言,帮助研究者定位自己的工作,发现跨领域的机会。作为综述,创新性不在于提出新方法,而在于整合和结构化现有知识。可能对初学者略显复杂。

标签: 世界模型, Agent, 综述, 分类法, AI架构


5. Relaxation-Informed Training of Neural Network Surrogate Models

作者: Calvin Tsay
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2604.22746v1
类别: cs.LG

🔍 核心内容

研究如何训练ReLU神经网络代理模型以提高其在混合整数线性规划(MILP)中的可处理性。提出针对MILP可处理性的训练正则化器,包括惩罚big-M常数、不稳定神经元数量和LP松弛间隙。可将对偶变量直接纳入训练目标。

❓ 解决的问题

ReLU神经网络作为代理模型可以精确嵌入MILP进行全局优化,但结果MILP的可处理性取决于网络结构特性(二进制变量数量、连续LP松弛紧度)。标准训练目标无法控制这些特性。

🛠️ 方法

提出三类正则化器:(1)基于边界的正则化器惩罚MILP公式的big-M常数;(2)惩罚不稳定神经元数量;(3)LP松弛间隙正则化器显式惩罚训练点上连续松弛的逐样本间隙。从LP对偶变量推导梯度,无需自定义自动微分工具。

📊 效果

在非凸基准函数和两阶段随机规划问题上,所提正则化器可将MILP求解时间降低多达四个数量级,同时保持有竞争力的代理模型准确性。证明了组合正则化器可近似LP间隙对网络参数的完整全导数。

🤖 AI 评价

这是一项技术性很强的研究,针对优化和机器学习交叉领域的重要问题。创新在于将下游优化任务的可处理性直接纳入训练目标,而非仅关注预测准确性。实际效果显著(四个数量级加速)。研究推导严谨,提供了理论保证。局限性在于主要关注ReLU网络,其他激活函数可能需要扩展;同时计算正则化梯度可能增加训练成本。

标签: 神经网络, MILP, 优化, 正则化, 代理模型


6. Neural Recovery of Historical Lexical Structure in Bantu Languages from Modern Data

作者: Hillary Mutisya, John Mugane
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2604.22730v1
类别: cs.LG

🔍 核心内容

研究仅使用现代形态学数据训练的神经网络能否恢复与历史重建一致的跨语言词汇结构。使用BantuMorph v7分析14种东非和南非班图语,提取名词和动词词干的编码器嵌入,识别出728个名词和1525个动词同源候选。

❓ 解决的问题

历史语言学通过比较现代语言重建古代语言形态。传统方法依赖专家知识。能否用神经网络自动从现代数据中恢复历史词汇结构?

🛠️ 方法

使用基于Transformer的BantuMorph v7模型,在14种班图语的形态范式上训练。提取编码器嵌入,通过相似性分析识别跨语言同源词。与Bantu词汇重建数据库(BLR3)和ASJP基础词汇进行验证。使用NLLB-600M进行交叉模型验证。

📊 效果

前11个名词候选中10个与此前重建的原班图语形式一致(90.9%),包括*-ntU’人’、*gombe’牛’等。12个动词同源词与原班图语根一致。跨模型验证确认两种模型都恢复与Guthrie区分类一致的同源聚类和系统发育分组(p<0.01)。

🤖 AI 评价

这是一项将AI应用于语言学和文化遗产保护的有趣研究。神经网络能够从现代数据中’发现’数千年前的语言历史,展示了深度学习在历史科学中的潜力。验证工作扎实,与权威历史语言学资源对照。局限在于数据集限于东非和南非班图语,无法区分原班图语保留与后期区域创新。但对低资源语言文档化有积极意义。

标签: 计算语言学, 历史语言学, 低资源语言, 形态学, 文化遗产


7. Zero-Shot Morphological Discovery in Low-Resource Bantu Languages via Cross-Lingual Transfer and Unsupervised Clustering

作者: Hillary Mutisya, John Mugane
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2604.22723v1
类别: cs.LG

🔍 核心内容

提出结合跨语言迁移学习和无监督聚类的方法,用于发现低资源班图语的形态特征。应用于仅有91个标注范式的Giriama语,发现2,455个词的名词类分配,并识别出两个此前未记录的形态模式。

❓ 解决的问题

低资源语言的形态学文档化面临数据稀缺的挑战。如何仅用极少标注数据自动发现形态学特征和模式?

🛠️ 方法

结合斯瓦希里语的跨语言迁移学习和无监督聚类,通过加权投票组合。迁移学习利用约60%的词汇重叠进行同源检测,聚类发现迁移看不到的语言特定创新。

📊 效果

发现Class 2的a-前缀变体(元音合并,95.1%一致性)和缩略k’-前缀(98.5%一致性)。在444个已知Giriama动词范式上验证,78.2%词形还原准确率。扩展到19,624词(v3语料库)达到97.3%分段和86.7%词形还原率。

🤖 AI 评价

这是一项扎实的低资源NLP研究,针对被主流研究忽视的语言。方法创新在于有效结合迁移学习和无监督学习的互补优势。实际发现了此前未知的形态学模式,展示了AI辅助语言文档化的价值。代码和词典开源,有利于后续研究。局限在于仅针对班图语系,其他语系可能需要调整。整体是低资源语言技术支持的典范。

标签: 低资源NLP, 形态学, 跨语言迁移, 无监督学习, 语言文档化


8. Aligning Dense Retrievers with LLM Utility via Distillation

作者: Rajinder Sandhu, Di Mu, Cheng Chang, Md Shahriar Tasjid, Himanshu Rai, Maksims Volkovs, Ga Wu
评分: ⭐⭐⭐⭐ (8/10)
链接: http://arxiv.org/abs/2604.22722v1
类别: cs.AI

🔍 核心内容

提出Utility-Aligned Embeddings(UAE)框架,通过蒸馏将LLM的效用信号注入稠密向量检索。将检索建模为分布匹配问题,训练双编码器模仿基于困惑度降低的效用分布。使用Utility-Modulated InfoNCE目标,无需测试时LLM推理即可将分级效用信号直接注入嵌入空间。

❓ 解决的问题

稠密向量检索是RAG的实用骨干,但相似性搜索可能精度有限。基于LLM重排序的效用方法性能更好但计算昂贵且易受困惑度估计噪声影响。如何融合两者优势?

🛠️ 方法

提出UAE框架:将检索形式化为分布匹配问题,训练bi-encoder模仿从困惑度降低导出的效用分布。使用Utility-Modulated InfoNCE目标函数,将分级效用信号注入嵌入空间。测试时无需LLM推理。

📊 效果

在QASPER基准上,UAE相比强语义基线BGE-Base:Recall@1提升30.59%,MAP提升30.16%,Token F1提升17.3%。关键是UAE比高效LLM重排序方法快180倍以上,同时保持有竞争力的性能。

🤖 AI 评价

这是一项实用的RAG优化研究,解决了检索和生成之间的对齐问题。方法优雅——通过蒸馏在训练时将LLM的’知识’注入检索器,测试时无需LLM即可高效检索。性能提升显著,速度优势巨大(180倍)。对生产环境的RAG系统有直接价值。局限性在于主要在一个基准上评估,更广泛的跨领域验证有待进行。

标签: RAG, 稠密检索, 知识蒸馏, LLM, 信息检索


9. Inter-Stance: A Dyadic Multimodal Corpus for Conversational Stance Analysis

作者: Xiang Zhang, Xiaotian Li, Taoyue Wang, Nan Bi, Xin Zhou, Cody Zhou, Zoie Wang, Andrew Yang, Yuming S…
评分: ⭐⭐⭐ (7/10)
链接: http://arxiv.org/abs/2604.22739v1
类别: cs.CV

🔍 核心内容

构建了一个多模态二元交互语料库Inter-Stance,包含45对(90人)同步多模态行为数据:2D面部视频、3D面部几何、热谱动态、语音和言语行为、生理信号(PPG、EDA、心率、血压、呼吸)以及参与者自我报告的情感。标注包括社交信号、同意、不同意和中立立场。

❓ 解决的问题

社交互动通过手势、面部表情、声音和言语等简单自发的行为塑造我们的日常行为。但此前没有公开数据集包含社交互动中多人的多模态记录和自我报告测量,缺乏二元记录和标注。

🛠️ 方法

招募45对参与者(有共同历史的人和陌生人),在情感诱导场景下进行交互。同步采集多模态数据:视频、3D几何、热成像、音频、多通道生理信号。进行社交信号、立场(同意/不同意/中立)的标注。

📊 效果

数据集包含20TB多模态数据。实验表明该数据集支持评估有无人际历史关系的二元组的多模态交流及其情感。可使此前不可能的多模态社交交互建模成为可能。

🤖 AI 评价

这是一项重要的数据资源贡献。多模态社交交互数据稀缺,该数据集填补了这一空白。多模态同步采集(包括生理信号)是一大亮点。潜在影响广泛,可支持社交计算、情感计算、人机交互等领域的研究。局限性在于规模相对较小(45对),且主要是实验室场景,可能缺乏自然社交互动的复杂性。数据共享给研究社区是积极做法。

标签: 多模态数据集, 社交交互, 立场分析, 情感计算, 生理信号


10. An Undecidability Proof for the Plan Existence Problem

作者: Antonis Achilleos
评分: ⭐⭐⭐ (7/10)
链接: http://arxiv.org/abs/2604.22736v1
类别: cs.AI

🔍 核心内容

证明了计划存在问题的不可判定性。即使认知动作的前提条件模态深度最多为1且没有后置条件,计划存在问题仍然是不可判定的。这一问题此前的不确定性(可判定/不可判定)状态得以解决。

❓ 解决的问题

计划存在问题询问:给定模态逻辑公式形式的目标、初始认知状态(带指派的Kripke模型)和一组认知动作,是否存在可应用的动作序列来达到目标。此前该问题的(不可)可判定性未知。

🛠️ 方法

使用计算理论和模态逻辑的技术,通过归约方法证明不可判定性。构造特定的模态逻辑公式和Kripke模型,将已知的不可判定问题归约到计划存在问题。

📊 效果

严格证明了即使在强限制条件下(前提条件模态深度≤1,无后置条件),计划存在问题仍是不可判定的。这意味着不存在通用算法能判定任意计划存在问题的实例是否有解。

🤖 AI 评价

这是一项理论计算机科学的基础性结果。虽然技术性强且抽象,但解决了认知逻辑和自动规划交叉领域长期存在的问题。不可判定性结果对AI规划系统的设计有深远影响——意味着必须依赖启发式、近似或受限子类。研究简洁而深刻。局限性在于纯理论性,直接应用价值有限。

标签: 理论计算机科学, 不可判定性, 模态逻辑, 自动规划, 认知逻辑


📈 今日统计

  • 论文总数: 10 篇
  • 数据来源: ArXiv RSS (cs.AI, cs.LG, cs.CL, cs.CV, cs.RO)
  • 更新时间: 2026-04-28

本报告由 AI 自动生成,仅供参考。论文观点不代表本站立场。