ArXiv 每日论文精选 | 2026-04-24

April 24, 2026 3-minute read

arXiv • 论文阅读 • AI研究 • 每日精选 • 机器学习

📚 ArXiv 每日论文精选 | 2026-04-24

自动精选今日 ArXiv 最新 AI/ML 论文，AI 深度解读核心内容、方法、效果与评价。

1. The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?

作者: Yirong Zeng, Shen You, Yufei Liu, Qunyao Du, Xiao Ding, Yutai Hou, Yuxian Wang, Wu Ning, Haonan Song…
评分: ⭐⭐⭐⭐ (9/10)
链接: https://arxiv.org/abs/2604.19749
类别: cs.AI

🔍 核心内容

研究LLM在配备外部工具时出现的’工具过度使用’现象，即模型在已有内部知识的情况下仍不必要的调用外部工具。通过实验揭示了两个关键机制：知识认知幻觉（模型误判自身知识边界）和结果导向奖励结构（只奖励最终正确性而忽视工具效率）。

❓ 解决的问题

LLM在配备外部工具时存在过度依赖问题， unnecessarily调用工具导致效率低下、成本增加，且这一现象在不同模型中普遍存在但未被充分研究。

🛠️ 方法

知识认知边界对齐策略：基于直接偏好优化(DPO)的知识感知方法；2) 平衡奖励信号训练：替代仅结果导向的奖励机制；3) 通过可视化工具增强训练过程建立因果联系。

📊 效果

知识感知策略减少82.8%的不必要工具使用并提升准确率；平衡奖励信号在7B模型上减少66.7%不必要调用，32B模型减少60.7%，且不牺牲准确率。

🤖 AI 评价

这是一个非常扎实的实证研究，从两个互补角度深入分析了工具过度使用的根因。研究设计严谨，既有理论分析又有实际改进方案。DPO和奖励重塑的方法具有实用价值，对Agent系统设计有直接指导意义。不足之处在于主要关注两类原因，可能还有其他因素（如训练数据偏差）值得探索。

标签: LLM, Tool Learning, Agent, DPO, Reward Design, 效率优化

2. EvoForest: A Novel Machine-Learning Paradigm via Open-Ended Evolution of Computational Graphs

作者: Kamer Ali Yuksel, Hassan Sawaf
评分: ⭐⭐⭐⭐ (9/10)
链接: https://arxiv.org/abs/2604.19761
类别: cs.AI

🔍 核心内容

提出EvoForest，一种混合神经符号系统，通过开放式进化端到端发现计算结构。在共享DAG中联合进化可重用计算结构、可调用函数族和可训练的低维连续组件，使用LLM驱动的突变和Ridge readout评估。

❓ 解决的问题

传统ML范式（选择参数化模型族+优化权重）过于狭窄，许多结构化预测问题的主要瓶颈是发现应该从数据中计算什么，而非参数拟合。非可微目标、交叉验证评估、可解释性需求和持续适应等场景需要新范式。

🛠️ 方法

混合进化+神经符号方法：DAG表示计算图；中间节点存储替代实现；可调用节点编码变换族；输出节点定义候选预测；全局参数可梯度优化；LLM驱动突变；Ridge-based readout评估非可微目标。

📊 效果

在2025 ADIA Lab结构突变挑战中，600步进化后达到94.13% ROC-AUC，超过公开报告的冠军分数90.14%。

🤖 AI 评价

极具野心的范式级创新，试图突破’固定架构+权重优化’的传统ML框架。EvoForest的设计理念先进，将进化计算、神经符号和LLM结合。竞赛结果令人印象深刻。不足是系统复杂度较高，600步进化的计算成本可能很高；且仅在单个竞赛中验证，泛化能力需要更多基准测试支持。

标签: Neuro-symbolic, Evolutionary Computation, AutoML, Structured Prediction, LLM-guided Evolution

3. AI to Learn 2.0: A Deliverable-Oriented Governance Framework and Maturity Rubric for Opaque AI in Learning-Intensive Domains

作者: Seine A. Shintani
评分: ⭐⭐⭐⭐ (8/10)
链接: https://arxiv.org/abs/2604.19751
类别: cs.AI

🔍 核心内容

提出AI to Learn 2.0治理框架，解决生成式AI在学习密集型领域（教育、研究）中的评估难题。核心区分’产物残留’与’能力残留’，要求最终交付物不依赖原始LLM即可使用、审计、传递和辩护。

❓ 解决的问题

当前AI治理框架滞后于技术发展，存在’代理失败’问题：精美的AI产出物可能有用，但不再能作为人类理解、判断或迁移能力的可信证据。

🛠️ 方法

构建五部分交付包、七维度成熟度评分标准、关键维度门槛阈值，以及配套的能力证据阶梯。允许在探索阶段使用AI，但要求最终交付物可独立验证。

📊 效果

通过对比案例分析（课程作业替代、符号回归治理对比、教师审计的国家考试练习表等）证明框架能有效区分’精致的替代工作流’与’有边界、可审计、可交接的AI辅助工作流’。

🤖 AI 评价

这是一篇具有前瞻性的治理研究，直面AI辅助工作的核心悖论：如何既享受AI效率又保证人类能力成长。框架设计系统化，从理论到实践案例都有覆盖。单作者论文显示出极强的独立思考能力。不足之处在于框架的落地实施可能需要机构层面的配合，推广难度较大。

标签: AI Governance, Education, AI-assisted Work, Framework, Policy

4. Algorithm Selection with Zero Domain Knowledge via Text Embeddings

作者: Stefan Szeider
评分: ⭐⭐⭐⭐ (8/10)
链接: https://arxiv.org/abs/2604.19753
类别: cs.AI

🔍 核心内容

提出ZeroFolio方法，用预训练文本嵌入替代手工设计的实例特征进行算法选择。三步骤流程：将实例文件序列化为文本→嵌入→加权k近邻选择算法。在11个ASlib场景（7个领域）上验证。

❓ 解决的问题

传统算法选择依赖领域专家手工设计特征，费时费力且难以跨域迁移。如何在没有领域知识的情况下实现有效的算法选择？

🛠️ 方法

利用预训练语言模型的文本嵌入能力，将问题实例视为纯文本进行嵌入表示，结合逆距离加权、行随机化和曼哈顿距离的kNN选择器。

📊 效果

单配置下在11个场景中10个超越手工特征训练的随机森林；双种子投票下全部11个场景超越；嵌入与手工特征软投票可进一步提升。

🤖 AI 评价

这是一个简洁而优雅的思路转变：将结构化问题实例当作文本来处理。方法简单但效果惊人，体现了预训练模型跨域迁移能力的强大。消融实验设计合理，验证了关键设计选择。不足是仅在文本格式实例上验证，对二进制或其他格式实例的适用性待验证。

标签: Algorithm Selection, Text Embeddings, Zero-shot, ASlib, AutoML

5. Explainable AML Triage with LLMs: Evidence Retrieval and Counterfactual Checks

作者: Dorothy Torres, Wei Cheng, Ke Hu
评分: ⭐⭐⭐⭐ (8/10)
链接: https://arxiv.org/abs/2604.19755
类别: cs.AI

🔍 核心内容

提出可解释的反洗钱(AML)分类框架，将LLM用于高风险金融合规场景。结合检索增强证据捆绑、结构化LLM输出合约（要求显式引用）和反事实检查，确保决策可审计、可防御。

❓ 解决的问题

AML交易监控产生大量警报需要快速分类，但LLM在无约束生成时存在幻觉、弱来源和解释不忠实等风险，在严格监管场景中不可接受。

🛠️ 方法

三步法：(1) RAG证据捆绑整合政策指导、客户上下文、警报触发器和交易子图；(2) 结构化输出合约区分支持/矛盾/缺失证据；(3) 反事实检查验证微小扰动是否导致一致的决策和解释变化。

📊 效果

PR-AUC 0.75，Escalate F1 0.62，引用有效性0.98，证据支持度0.88，反事实忠实度0.76。证据基础显著减少数值和政策幻觉错误。

🤖 AI 评价

金融领域LLM应用的高质量研究，在合规要求极高的AML场景中展示了如何负责任地使用LLM。三步框架设计精巧，反事实检查的引入尤为重要。指标全面且令人信服。不足是使用了合成数据评估，在真实生产环境中的表现有待验证。

标签: AML, LLM, RAG, Explainable AI, Financial Compliance, Counterfactual

6. ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

作者: Kemal D"uzkar
评分: ⭐⭐⭐⭐ (8/10)
链接: https://arxiv.org/abs/2604.19758
类别: cs.AI

🔍 核心内容

构建ThermoQA基准测试，包含293个工程热力学开放式问题，分三个层次：属性查找、组件分析和完整循环分析。使用CoolProp 7.2.0程序化计算真实答案，评估6个前沿LLM。

❓ 解决的问题

现有LLM基准测试多集中在数学、代码和常识推理，缺乏对工程科学（特别是热力学）推理能力的系统评估。需要区分属性记忆与真正的热力学推理。

🛠️ 方法

三层次问题设计：属性查找(110题)、组件分析(101题)、完整循环分析(82题)；使用CoolProp计算真实答案；覆盖水、R-134a和变比热空气三种工质。

📊 效果

Claude Opus 4.6领先(94.1%)，GPT-5.4(93.1%)，Gemini 3.1 Pro(92.5%)。跨层次退化2.8-32.5个百分点，证明属性记忆不等于推理能力。超临界水和联合循环燃气轮机分析是强判别器(40-60pp差距)。

🤖 AI 评价

领域专用基准测试的典范工作。三层次设计巧妙，能有效区分不同水平的推理能力。实验设计严谨（三次独立运行），且数据集已开源。不足是问题数量相对有限(293题)，且主要覆盖经典热力学，对新兴领域（如新能源系统）覆盖不足。

标签: Benchmark, Thermodynamics, Scientific Reasoning, LLM Evaluation, Engineering

7. From Actions to Understanding: Conformal Interpretability of Temporal Concepts in LLM Agents

作者: Trilok Padhi, Ramneet Kaur, Krishiv Agarwal, Adam D. Cobb, Daniel Elenius, Manoj Acharya, Colin Samp…
评分: ⭐⭐⭐⭐ (8/10)
链接: https://arxiv.org/abs/2604.19775
类别: cs.AI

🔍 核心内容

提出共形可解释性框架，用于解释LLM Agent中概念的时间演化。结合逐步奖励建模与共形预测，统计标记每步内部表示为成功或失败，训练线性探针识别时间概念的潜在方向，实现早期故障检测和干预。

❓ 解决的问题

LLM Agent在多步推理和决策中的内部机制不透明，难以理解其顺序行为的指导机制，缺乏对时间维度概念演化的可解释性方法。

🛠️ 方法

三步法：(1)逐步奖励建模评估每步；(2)共形预测统计标记内部表示；(3)线性探针识别激活空间中对应成功/失败/推理漂移的潜在方向。

📊 效果

在ScienceWorld和AlfWorld两个模拟环境中，时间概念是线性可分的，揭示了与任务成功对齐的可解释结构。初步结果显示可通过引导成功方向提升Agent性能。

🤖 AI 评价

Agent可解释性的重要进展，将共形预测（统计学严谨的不确定性量化方法）引入LLM内部机制解释是创新之举。线性可分性的发现为Agent控制提供了新途径。不足是仅在两个相对简单的模拟环境中验证，在更复杂真实场景中的有效性未知；且’引导成功方向’的结果仅为初步。

标签: LLM Agent, Interpretability, Conformal Prediction, Linear Probes, Failure Detection

8. Exploring Data Augmentation and Resampling Strategies for Transformer-Based Models to Address Class Imbalance in AI Scoring of Scientific Explanations in NGSS Classroom

作者: Prudence Djagba, Kevin Haudek, Clare G. C. Franovic, Leonora Kaldaras
评分: ⭐⭐⭐ (7/10)
链接: https://arxiv.org/abs/2604.19754
类别: cs.AI

🔍 核心内容

研究教育场景中学生科学解释自动评分中的类别不平衡问题，比较了GPT-4合成数据、EASE词级提取和ALP短语级提取三种增强策略，在NGSS对齐的学习进阶框架下评估1466份高中生回答。

❓ 解决的问题

科学解释自动评分中，高级推理类别数据稀缺导致类别不平衡，传统方法容易过拟合且丢失新手级数据，影响学习进阶对齐。

🛠️ 方法

以SciBERT为基线，对比三种增强策略：GPT-4生成合成回答、EASE词级提取过滤、ALP短语级提取；并与SMOTE过采样方法对比。

📊 效果

ALP在最严重不平衡类别(5,6,7,9)上达到完美精确率、召回率和F1；EASE增强显著提升与人类评分的一致性；GPT-4数据同时提升精确率和召回率。

🤖 AI 评价

教育AI应用的高质量研究，问题定义清晰且贴合实际教学需求。三种增强策略的对比系统全面，ALP的’完美’结果令人印象深刻。但数据集规模较小(1466样本)，且领域限定在物理科学，推广性有待验证。

标签: Education AI, Data Augmentation, SciBERT, Class Imbalance, NGSS

作者: Mohammad AL-Smadi
评分: ⭐⭐⭐ (7/10)
链接: https://arxiv.org/abs/2604.19759
类别: cs.AI

🔍 核心内容

构建自动化系统检测临床试验叙述中的剂量错误，使用LightGBM结合多模态特征工程（3451个特征），包括传统NLP、语义嵌入、医学领域模式和Transformer分数，在严重类别不平衡(4.9%正例)的CT-DEB数据集上取得0.8725 AUC。

❓ 解决的问题

临床试验需严格遵守用药协议，但剂量错误持续影响患者安全和试验完整性。非结构化临床叙述中的错误检测具有挑战性，且数据严重不平衡。

🛠️ 方法

多模态特征工程：TF-IDF、字符n-gram、all-MiniLM-L6v2句子嵌入、医学领域模式、BiomedBERT和DeBERTa-v3分数；从9个互补文本字段提取；5折集成平均；特征选择优化。

📊 效果

测试AUC 0.8725，交叉验证0.8833±0.0091。句子嵌入最关键（移除导致2.39%性能下降）。Top 500-1000特征达到最优(0.886-0.887 AUC)，超过全特征集。

🤖 AI 评价

医疗NLP领域的扎实工程研究，特征工程设计全面，消融实验系统。关键发现是稀疏词法特征与密集表示的互补性，以及特征选择作为正则化技术的重要性。单作者工作量惊人。不足是方法较为传统（LightGBM+特征工程），未探索端到端深度学习或LLM方法的潜力。

标签: Clinical NLP, Dosing Errors, LightGBM, Feature Engineering, Imbalanced Classification

10. Inference Headroom Ratio: A Diagnostic and Control Framework for Inference Stability Under Constraint

作者: Robert Reinertsen
评分: ⭐⭐⭐ (7/10)
链接: https://arxiv.org/abs/2604.19760
类别: cs.AI

🔍 核心内容

提出推理余量比率(IHR)，一个无量纲诊断量，用于刻画约束决策系统中的推理稳定性。IHR形式化了系统有效推理能力C与环境不确定性U和约束负载K之间的关系，目标是捕捉接近推理稳定性边界的程度。

❓ 解决的问题

现有AI系统监控主要关注性能、漂移和不确定性指标，缺乏对’推理稳定性边界’的预警机制，无法在系统明显故障前估计剩余推理余量。

🛠️ 方法

基于模拟的评估，定义IHR = C/(U+K)；三个受控实验验证：(1)作为可量化风险指标；(2)稳定性边界敏感指示器；(3)可控变量进行主动调节。300次蒙特卡洛运行。

📊 效果

IHR与崩溃概率呈良好拟合的逻辑曲线，临界阈值IHR*≈1.19；主动调节将系统崩溃率从79.4%降至58.7%，IHR方差减少70.4%。

🤖 AI 评价

系统级AI安全监控的创新概念，IHR的提出具有理论价值。三个实验设计合理，验证了IHR的多功能性。但研究主要基于模拟环境，在真实复杂AI系统（如自动驾驶、医疗诊断）中的应用方式尚不清晰。概念较为抽象，需要更多实际案例支撑。

标签: AI Safety, Inference Stability, System Monitoring, Risk Assessment, Monte Carlo

📈 今日统计

论文总数: 10 篇
数据来源: ArXiv RSS (cs.AI, cs.LG, cs.CL, cs.CV, cs.RO)
更新时间: 2026-04-24

本报告由 AI 自动生成，仅供参考。论文观点不代表本站立场。

📚 ArXiv 每日论文精选 | 2026-04-24

1. The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

2. EvoForest: A Novel Machine-Learning Paradigm via Open-Ended Evolution of Computational Graphs

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

3. AI to Learn 2.0: A Deliverable-Oriented Governance Framework and Maturity Rubric for Opaque AI in Learning-Intensive Domains

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

4. Algorithm Selection with Zero Domain Knowledge via Text Embeddings

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

5. Explainable AML Triage with LLMs: Evidence Retrieval and Counterfactual Checks

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

6. ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

7. From Actions to Understanding: Conformal Interpretability of Temporal Concepts in LLM Agents

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

8. Exploring Data Augmentation and Resampling Strategies for Transformer-Based Models to Address Class Imbalance in AI Scoring of Scientific Explanations in NGSS Classroom

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

9. Automated Detection of Dosing Errors in Clinical Trial Narratives: A Multi-Modal Feature Engineering Approach with LightGBM

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

10. Inference Headroom Ratio: A Diagnostic and Control Framework for Inference Stability Under Constraint

🔍 核心内容

❓ 解决的问题

🛠️ 方法

📊 效果

🤖 AI 评价

📈 今日统计