ArXiv 每日论文精选 | 2026-04-24

📚 ArXiv 每日论文精选 | 2026-04-24

自动精选今日 ArXiv 最新 AI/ML 论文,AI 深度解读核心内容、方法、效果与评价。


1. The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?

作者: Yirong Zeng, Shen You, Yufei Liu, Qunyao Du, Xiao Ding, Yutai Hou, Yuxian Wang, Wu Ning, Haonan Song…
评分: ⭐⭐⭐⭐ (9/10)
链接: https://arxiv.org/abs/2604.19749
类别: cs.AI

🔍 核心内容

研究LLM在配备外部工具时出现的’工具过度使用’现象,即模型在已有内部知识的情况下仍不必要的调用外部工具。通过实验揭示了两个关键机制:知识认知幻觉(模型误判自身知识边界)和结果导向奖励结构(只奖励最终正确性而忽视工具效率)。

❓ 解决的问题

LLM在配备外部工具时存在过度依赖问题, unnecessarily调用工具导致效率低下、成本增加,且这一现象在不同模型中普遍存在但未被充分研究。

🛠️ 方法

  1. 知识认知边界对齐策略:基于直接偏好优化(DPO)的知识感知方法;2) 平衡奖励信号训练:替代仅结果导向的奖励机制;3) 通过可视化工具增强训练过程建立因果联系。

📊 效果

知识感知策略减少82.8%的不必要工具使用并提升准确率;平衡奖励信号在7B模型上减少66.7%不必要调用,32B模型减少60.7%,且不牺牲准确率。

🤖 AI 评价

这是一个非常扎实的实证研究,从两个互补角度深入分析了工具过度使用的根因。研究设计严谨,既有理论分析又有实际改进方案。DPO和奖励重塑的方法具有实用价值,对Agent系统设计有直接指导意义。不足之处在于主要关注两类原因,可能还有其他因素(如训练数据偏差)值得探索。

标签: LLM, Tool Learning, Agent, DPO, Reward Design, 效率优化


2. EvoForest: A Novel Machine-Learning Paradigm via Open-Ended Evolution of Computational Graphs

作者: Kamer Ali Yuksel, Hassan Sawaf
评分: ⭐⭐⭐⭐ (9/10)
链接: https://arxiv.org/abs/2604.19761
类别: cs.AI

🔍 核心内容

提出EvoForest,一种混合神经符号系统,通过开放式进化端到端发现计算结构。在共享DAG中联合进化可重用计算结构、可调用函数族和可训练的低维连续组件,使用LLM驱动的突变和Ridge readout评估。

❓ 解决的问题

传统ML范式(选择参数化模型族+优化权重)过于狭窄,许多结构化预测问题的主要瓶颈是发现应该从数据中计算什么,而非参数拟合。非可微目标、交叉验证评估、可解释性需求和持续适应等场景需要新范式。

🛠️ 方法

混合进化+神经符号方法:DAG表示计算图;中间节点存储替代实现;可调用节点编码变换族;输出节点定义候选预测;全局参数可梯度优化;LLM驱动突变;Ridge-based readout评估非可微目标。

📊 效果

在2025 ADIA Lab结构突变挑战中,600步进化后达到94.13% ROC-AUC,超过公开报告的冠军分数90.14%。

🤖 AI 评价

极具野心的范式级创新,试图突破’固定架构+权重优化’的传统ML框架。EvoForest的设计理念先进,将进化计算、神经符号和LLM结合。竞赛结果令人印象深刻。不足是系统复杂度较高,600步进化的计算成本可能很高;且仅在单个竞赛中验证,泛化能力需要更多基准测试支持。

标签: Neuro-symbolic, Evolutionary Computation, AutoML, Structured Prediction, LLM-guided Evolution


3. AI to Learn 2.0: A Deliverable-Oriented Governance Framework and Maturity Rubric for Opaque AI in Learning-Intensive Domains

作者: Seine A. Shintani
评分: ⭐⭐⭐⭐ (8/10)
链接: https://arxiv.org/abs/2604.19751
类别: cs.AI

🔍 核心内容

提出AI to Learn 2.0治理框架,解决生成式AI在学习密集型领域(教育、研究)中的评估难题。核心区分’产物残留’与’能力残留’,要求最终交付物不依赖原始LLM即可使用、审计、传递和辩护。

❓ 解决的问题

当前AI治理框架滞后于技术发展,存在’代理失败’问题:精美的AI产出物可能有用,但不再能作为人类理解、判断或迁移能力的可信证据。

🛠️ 方法

构建五部分交付包、七维度成熟度评分标准、关键维度门槛阈值,以及配套的能力证据阶梯。允许在探索阶段使用AI,但要求最终交付物可独立验证。

📊 效果

通过对比案例分析(课程作业替代、符号回归治理对比、教师审计的国家考试练习表等)证明框架能有效区分’精致的替代工作流’与’有边界、可审计、可交接的AI辅助工作流’。

🤖 AI 评价

这是一篇具有前瞻性的治理研究,直面AI辅助工作的核心悖论:如何既享受AI效率又保证人类能力成长。框架设计系统化,从理论到实践案例都有覆盖。单作者论文显示出极强的独立思考能力。不足之处在于框架的落地实施可能需要机构层面的配合,推广难度较大。

标签: AI Governance, Education, AI-assisted Work, Framework, Policy


4. Algorithm Selection with Zero Domain Knowledge via Text Embeddings

作者: Stefan Szeider
评分: ⭐⭐⭐⭐ (8/10)
链接: https://arxiv.org/abs/2604.19753
类别: cs.AI

🔍 核心内容

提出ZeroFolio方法,用预训练文本嵌入替代手工设计的实例特征进行算法选择。三步骤流程:将实例文件序列化为文本→嵌入→加权k近邻选择算法。在11个ASlib场景(7个领域)上验证。

❓ 解决的问题

传统算法选择依赖领域专家手工设计特征,费时费力且难以跨域迁移。如何在没有领域知识的情况下实现有效的算法选择?

🛠️ 方法

利用预训练语言模型的文本嵌入能力,将问题实例视为纯文本进行嵌入表示,结合逆距离加权、行随机化和曼哈顿距离的kNN选择器。

📊 效果

单配置下在11个场景中10个超越手工特征训练的随机森林;双种子投票下全部11个场景超越;嵌入与手工特征软投票可进一步提升。

🤖 AI 评价

这是一个简洁而优雅的思路转变:将结构化问题实例当作文本来处理。方法简单但效果惊人,体现了预训练模型跨域迁移能力的强大。消融实验设计合理,验证了关键设计选择。不足是仅在文本格式实例上验证,对二进制或其他格式实例的适用性待验证。

标签: Algorithm Selection, Text Embeddings, Zero-shot, ASlib, AutoML


5. Explainable AML Triage with LLMs: Evidence Retrieval and Counterfactual Checks

作者: Dorothy Torres, Wei Cheng, Ke Hu
评分: ⭐⭐⭐⭐ (8/10)
链接: https://arxiv.org/abs/2604.19755
类别: cs.AI

🔍 核心内容

提出可解释的反洗钱(AML)分类框架,将LLM用于高风险金融合规场景。结合检索增强证据捆绑、结构化LLM输出合约(要求显式引用)和反事实检查,确保决策可审计、可防御。

❓ 解决的问题

AML交易监控产生大量警报需要快速分类,但LLM在无约束生成时存在幻觉、弱来源和解释不忠实等风险,在严格监管场景中不可接受。

🛠️ 方法

三步法:(1) RAG证据捆绑整合政策指导、客户上下文、警报触发器和交易子图;(2) 结构化输出合约区分支持/矛盾/缺失证据;(3) 反事实检查验证微小扰动是否导致一致的决策和解释变化。

📊 效果

PR-AUC 0.75,Escalate F1 0.62,引用有效性0.98,证据支持度0.88,反事实忠实度0.76。证据基础显著减少数值和政策幻觉错误。

🤖 AI 评价

金融领域LLM应用的高质量研究,在合规要求极高的AML场景中展示了如何负责任地使用LLM。三步框架设计精巧,反事实检查的引入尤为重要。指标全面且令人信服。不足是使用了合成数据评估,在真实生产环境中的表现有待验证。

标签: AML, LLM, RAG, Explainable AI, Financial Compliance, Counterfactual


6. ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

作者: Kemal D"uzkar
评分: ⭐⭐⭐⭐ (8/10)
链接: https://arxiv.org/abs/2604.19758
类别: cs.AI

🔍 核心内容

构建ThermoQA基准测试,包含293个工程热力学开放式问题,分三个层次:属性查找、组件分析和完整循环分析。使用CoolProp 7.2.0程序化计算真实答案,评估6个前沿LLM。

❓ 解决的问题

现有LLM基准测试多集中在数学、代码和常识推理,缺乏对工程科学(特别是热力学)推理能力的系统评估。需要区分属性记忆与真正的热力学推理。

🛠️ 方法

三层次问题设计:属性查找(110题)、组件分析(101题)、完整循环分析(82题);使用CoolProp计算真实答案;覆盖水、R-134a和变比热空气三种工质。

📊 效果

Claude Opus 4.6领先(94.1%),GPT-5.4(93.1%),Gemini 3.1 Pro(92.5%)。跨层次退化2.8-32.5个百分点,证明属性记忆不等于推理能力。超临界水和联合循环燃气轮机分析是强判别器(40-60pp差距)。

🤖 AI 评价

领域专用基准测试的典范工作。三层次设计巧妙,能有效区分不同水平的推理能力。实验设计严谨(三次独立运行),且数据集已开源。不足是问题数量相对有限(293题),且主要覆盖经典热力学,对新兴领域(如新能源系统)覆盖不足。

标签: Benchmark, Thermodynamics, Scientific Reasoning, LLM Evaluation, Engineering


7. From Actions to Understanding: Conformal Interpretability of Temporal Concepts in LLM Agents

作者: Trilok Padhi, Ramneet Kaur, Krishiv Agarwal, Adam D. Cobb, Daniel Elenius, Manoj Acharya, Colin Samp…
评分: ⭐⭐⭐⭐ (8/10)
链接: https://arxiv.org/abs/2604.19775
类别: cs.AI

🔍 核心内容

提出共形可解释性框架,用于解释LLM Agent中概念的时间演化。结合逐步奖励建模与共形预测,统计标记每步内部表示为成功或失败,训练线性探针识别时间概念的潜在方向,实现早期故障检测和干预。

❓ 解决的问题

LLM Agent在多步推理和决策中的内部机制不透明,难以理解其顺序行为的指导机制,缺乏对时间维度概念演化的可解释性方法。

🛠️ 方法

三步法:(1)逐步奖励建模评估每步;(2)共形预测统计标记内部表示;(3)线性探针识别激活空间中对应成功/失败/推理漂移的潜在方向。

📊 效果

在ScienceWorld和AlfWorld两个模拟环境中,时间概念是线性可分的,揭示了与任务成功对齐的可解释结构。初步结果显示可通过引导成功方向提升Agent性能。

🤖 AI 评价

Agent可解释性的重要进展,将共形预测(统计学严谨的不确定性量化方法)引入LLM内部机制解释是创新之举。线性可分性的发现为Agent控制提供了新途径。不足是仅在两个相对简单的模拟环境中验证,在更复杂真实场景中的有效性未知;且’引导成功方向’的结果仅为初步。

标签: LLM Agent, Interpretability, Conformal Prediction, Linear Probes, Failure Detection


8. Exploring Data Augmentation and Resampling Strategies for Transformer-Based Models to Address Class Imbalance in AI Scoring of Scientific Explanations in NGSS Classroom

作者: Prudence Djagba, Kevin Haudek, Clare G. C. Franovic, Leonora Kaldaras
评分: ⭐⭐⭐ (7/10)
链接: https://arxiv.org/abs/2604.19754
类别: cs.AI

🔍 核心内容

研究教育场景中学生科学解释自动评分中的类别不平衡问题,比较了GPT-4合成数据、EASE词级提取和ALP短语级提取三种增强策略,在NGSS对齐的学习进阶框架下评估1466份高中生回答。

❓ 解决的问题

科学解释自动评分中,高级推理类别数据稀缺导致类别不平衡,传统方法容易过拟合且丢失新手级数据,影响学习进阶对齐。

🛠️ 方法

以SciBERT为基线,对比三种增强策略:GPT-4生成合成回答、EASE词级提取过滤、ALP短语级提取;并与SMOTE过采样方法对比。

📊 效果

ALP在最严重不平衡类别(5,6,7,9)上达到完美精确率、召回率和F1;EASE增强显著提升与人类评分的一致性;GPT-4数据同时提升精确率和召回率。

🤖 AI 评价

教育AI应用的高质量研究,问题定义清晰且贴合实际教学需求。三种增强策略的对比系统全面,ALP的’完美’结果令人印象深刻。但数据集规模较小(1466样本),且领域限定在物理科学,推广性有待验证。

标签: Education AI, Data Augmentation, SciBERT, Class Imbalance, NGSS


9. Automated Detection of Dosing Errors in Clinical Trial Narratives: A Multi-Modal Feature Engineering Approach with LightGBM

作者: Mohammad AL-Smadi
评分: ⭐⭐⭐ (7/10)
链接: https://arxiv.org/abs/2604.19759
类别: cs.AI

🔍 核心内容

构建自动化系统检测临床试验叙述中的剂量错误,使用LightGBM结合多模态特征工程(3451个特征),包括传统NLP、语义嵌入、医学领域模式和Transformer分数,在严重类别不平衡(4.9%正例)的CT-DEB数据集上取得0.8725 AUC。

❓ 解决的问题

临床试验需严格遵守用药协议,但剂量错误持续影响患者安全和试验完整性。非结构化临床叙述中的错误检测具有挑战性,且数据严重不平衡。

🛠️ 方法

多模态特征工程:TF-IDF、字符n-gram、all-MiniLM-L6v2句子嵌入、医学领域模式、BiomedBERT和DeBERTa-v3分数;从9个互补文本字段提取;5折集成平均;特征选择优化。

📊 效果

测试AUC 0.8725,交叉验证0.8833±0.0091。句子嵌入最关键(移除导致2.39%性能下降)。Top 500-1000特征达到最优(0.886-0.887 AUC),超过全特征集。

🤖 AI 评价

医疗NLP领域的扎实工程研究,特征工程设计全面,消融实验系统。关键发现是稀疏词法特征与密集表示的互补性,以及特征选择作为正则化技术的重要性。单作者工作量惊人。不足是方法较为传统(LightGBM+特征工程),未探索端到端深度学习或LLM方法的潜力。

标签: Clinical NLP, Dosing Errors, LightGBM, Feature Engineering, Imbalanced Classification


10. Inference Headroom Ratio: A Diagnostic and Control Framework for Inference Stability Under Constraint

作者: Robert Reinertsen
评分: ⭐⭐⭐ (7/10)
链接: https://arxiv.org/abs/2604.19760
类别: cs.AI

🔍 核心内容

提出推理余量比率(IHR),一个无量纲诊断量,用于刻画约束决策系统中的推理稳定性。IHR形式化了系统有效推理能力C与环境不确定性U和约束负载K之间的关系,目标是捕捉接近推理稳定性边界的程度。

❓ 解决的问题

现有AI系统监控主要关注性能、漂移和不确定性指标,缺乏对’推理稳定性边界’的预警机制,无法在系统明显故障前估计剩余推理余量。

🛠️ 方法

基于模拟的评估,定义IHR = C/(U+K);三个受控实验验证:(1)作为可量化风险指标;(2)稳定性边界敏感指示器;(3)可控变量进行主动调节。300次蒙特卡洛运行。

📊 效果

IHR与崩溃概率呈良好拟合的逻辑曲线,临界阈值IHR*≈1.19;主动调节将系统崩溃率从79.4%降至58.7%,IHR方差减少70.4%。

🤖 AI 评价

系统级AI安全监控的创新概念,IHR的提出具有理论价值。三个实验设计合理,验证了IHR的多功能性。但研究主要基于模拟环境,在真实复杂AI系统(如自动驾驶、医疗诊断)中的应用方式尚不清晰。概念较为抽象,需要更多实际案例支撑。

标签: AI Safety, Inference Stability, System Monitoring, Risk Assessment, Monte Carlo


📈 今日统计

  • 论文总数: 10 篇
  • 数据来源: ArXiv RSS (cs.AI, cs.LG, cs.CL, cs.CV, cs.RO)
  • 更新时间: 2026-04-24

本报告由 AI 自动生成,仅供参考。论文观点不代表本站立场。