ArXiv 每日论文精选 | 2026-04-18

April 18, 2026 3-minute read

arXiv • 论文阅读 • AI研究 • 每日精选 • 机器学习

📚 ArXiv 每日论文精选 | 2026-04-18

自动精选今日 ArXiv 最新 AI/ML 论文，AI 深度解读核心内容、方法、效果与评价。

1. Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

作者: Chashi Mahiul Islam, Alan Villarreal, Mao Nishino, Shaeke Salman, Xiuwen Liu
评分: ⭐⭐⭐⭐ (8/10)
链接: https://arxiv.org/abs/2604.13206
类别: cs.AI

🔍 核心内容

从浮点数数值精度的角度严格分析LLM不可预测性的根源，揭示Transformer计算层中舍入误差传播的三种混沌行为模式。

❓ 解决的问题

LLM在Agent工作流中的不可预测性已影响可靠性，但其数值不稳定性的根本机制和根因尚不清楚。

🛠️ 方法

追踪舍入误差在Transformer层间的传播、放大和消散过程，识别早期层的’雪崩效应’，刻画三种尺度依赖的混沌行为模式：稳定、混沌和信号主导。

📊 效果

发现LLM表现出通用的、尺度依赖的混沌行为：早期层微小扰动引发二值结果（快速放大或完全衰减），在多个数据集和模型架构上验证了该发现。

🤖 AI 评价

创新性很高，从数值分析角度解释LLM不可预测性是一个新颖且有深度的工作。三种混沌模式的刻画很有洞察力。但对实际应用的指导意义（如何缓解）讨论不足。

标签: LLM Reliability, Numerical Stability, Chaos Theory, Transformer

2. WebXSkill: Skill Learning for Autonomous Web Agents

作者: Zhaoyang Wang, Qianhui Wu, Xuchao Zhang, Chaoyun Zhang, Wenlin Yao, Fazle Elahi Faisal, Baolin Peng, et al.
评分: ⭐⭐⭐⭐ (8/10)
链接: https://arxiv.org/abs/2604.13318
类别: cs.AI

🔍 核心内容

提出WebXSkill框架，通过可执行技能（参数化动作程序+步骤级自然语言指导）弥合Web Agent的技能落地鸿沟，支持全自动执行和引导式执行两种模式。

❓ 解决的问题

现有Web Agent技能表示存在落地鸿沟：文本工作流技能不可直接执行，代码技能对Agent不透明且难以纠错和适应。

🛠️ 方法

三阶段：从合成轨迹中提取可复用动作子序列并抽象为参数化技能，构建URL图谱索引实现上下文感知检索，提供落地模式（全自动）和引导模式（步骤指导）两种部署方式。

📊 效果

在WebArena和WebVoyager上分别提升任务成功率9.8和12.9个百分点，证明了可执行技能对Web Agent的有效性。

🤖 AI 评价

工作完整度高，从技能提取到组织到部署形成闭环。双模式设计巧妙，兼顾自动化和灵活性。实验充分且有开源代码。是Web Agent技能学习方向的有价值贡献。

标签: Web Agents, Skill Learning, LLM Agents, Browser Automation

3. Listening Alone, Understanding Together: Collaborative Context Recovery for Privacy-Aware AI

作者: Tanmay Srivastava, Amartya Basu, Shubham Jain, Vaishnavi Ranganathan
评分: ⭐⭐⭐⭐ (8/10)
链接: https://arxiv.org/abs/2604.13348
类别: cs.AI

🔍 核心内容

提出CONCORD框架，通过Agent间协作实现隐私保护下的上下文恢复，将’始终监听’AI重新定义为Agent间的协调问题。

❓ 解决的问题

主动式语音AI在社交部署中面临核心隐私风险（捕获未授权说话人），需要在不侵犯隐私的前提下恢复必要的对话上下文。

🛠️ 方法

通过实时说话人验证实现仅所有者语音捕获，产生有信息缺失的单边转录；通过时空上下文解析、信息缺口检测和关系感知最小化A2A查询来安全恢复上下文。

📊 效果

缺口检测91.4%召回率，关系分类96%准确率，隐私敏感决策97%真负率。将上下文恢复构建为Agent间的安全协商交换。

🤖 AI 评价

创新性出色，将隐私保护的始终监听AI重新定义为Agent间协调问题是很有创意的视角。A2A框架设计优雅。但实验在多领域对话数据集上进行，距离真实部署场景（噪声、多说话人重叠等）有差距。

标签: Privacy, Multi-Agent, Speech AI, A2A

4. RiskWebWorld: A Realistic Interactive Benchmark for GUI Agents in E-commerce Risk Management

作者: Renqi Chen, Zeyin Tao, Jianming Guo, Jing Wang, et al.
评分: ⭐⭐⭐⭐ (8/10)
链接: https://arxiv.org/abs/2604.13531
类别: cs.AI

🔍 核心内容

提出首个面向电商风险管理的GUI Agent真实交互基准RiskWebWorld，包含1513个任务，覆盖8个核心领域，支持可扩展评估和Agent强化学习。

❓ 解决的问题

现有GUI Agent基准主要面向良性的消费者环境，在电商风险管理等高风险调查领域的有效性未被探索。

🛠️ 方法

从生产风控流水线获取1513个任务，构建Gymnasium兼容基础设施解耦策略规划和环境机制，支持Agentic RL训练。

📊 效果

顶级通用模型达到49.1%成功率，开源专用GUI模型接近完全失败。Agentic RL将开源模型提升16.2%，揭示了基础模型规模在长时序专业任务中的关键作用。

🤖 AI 评价

基准建设价值高，填补了高风险领域GUI Agent评估的空白。从生产环境获取任务是真实性的有力保证。揭示了规模效应大于零样本界面理解的重要发现。基础设施支持RL训练是加分项。

标签: GUI Agent, Benchmark, E-commerce, Risk Management, Reinforcement Learning

5. Exploration and Exploitation Errors Are Measurable for Language Model Agents

作者: Jaden Park, Jungtaek Kim, Jongwon Jeong, Robert D. Nowak, Kangwook Lee, Yong Jae Lee
评分: ⭐⭐⭐ (7/10)
链接: https://arxiv.org/abs/2604.13151
类别: cs.AI

🔍 核心内容

研究如何从外部观测角度量化和区分LM智能体的探索与利用错误，设计了可编程调节难度的2D网格环境，提出无需访问内部策略的评估指标。

❓ 解决的问题

在开放式决策任务中，LM智能体需要同时具备探索和利用能力，但目前缺乏在不访问内部策略的情况下系统区分和量化这两类错误的方法。

🛠️ 方法

设计受实际具身AI启发的可控环境（部分可观测2D网格+未知任务DAG），通过编程调节探索/利用难度，提出基于观测动作的度量指标来量化两类错误。

📊 效果

评估多种前沿LM发现即使SOTA模型也表现不佳，不同模型呈现不同失败模式。推理模型更有效解决问题，且通过最小harness工程可显著改善探索和利用能力。

🤖 AI 评价

创新性较高，将经典强化学习的探索-利用框架引入LM智能体评估是一个有意义的视角。实验设计严谨，环境可编程调节难度是亮点。但环境相对简化（2D网格），与真实复杂任务的对应关系需要进一步验证。

标签: LM Agents, Exploration-Exploitation, Evaluation, Embodied AI

6. ReSS: Learning Reasoning Models for Tabular Data Prediction via Symbolic Scaffold

作者: Chenlang Yi, Gang Li, Zizhan Xiong, Tue Minh Cao, Yanmin Gong, My T. Thai, Tianbao Yang
评分: ⭐⭐⭐ (7/10)
链接: https://arxiv.org/abs/2604.13392
类别: cs.AI

🔍 核心内容

提出ReSS框架，利用决策树提取符号支架引导LLM生成忠实推理数据，微调得到专用的表格数据推理模型。

❓ 解决的问题

表格数据预测需要高精度和可解释推理。符号模型缺乏语义表达力，通用LLM需要专门微调才能掌握领域表格推理，且存在幻觉问题。

🛠️ 方法

用决策树提取实例级决策路径作为符号支架，引导LLM生成严格遵循决策逻辑的自然语言推理，构建高质量数据集微调预训练LLM，辅以支架不变数据增强策略提升泛化和可解释性。

📊 效果

在医疗和金融基准上，ReSS训练的模型相比传统决策树和标准微调方法提升最高10%，同时产生忠实一致的推理。引入幻觉率等量化指标评估推理忠实度。

🤖 AI 评价

方法设计巧妙，符号-神经混合推理是实用方向。引入定量的推理忠实度指标（幻觉率、必要性和充分性）是亮点。但强依赖决策树质量，对高度非线性的表格数据可能受限。

标签: Tabular Data, Reasoning, Symbolic AI, Explainability

7. Quantifying and Understanding Uncertainty in Large Reasoning Models

作者: Yangyi Li, Chenxu Zhao, Mengdi Huai
评分: ⭐⭐⭐ (7/10)
链接: https://arxiv.org/abs/2604.13395
类别: cs.AI

🔍 核心内容

提出基于共形预测的方法量化大型推理模型的不确定性，并开发基于Shapley值的解释框架识别关键训练样本和推理步骤。

❓ 解决的问题

LRM的不确定性量化至关重要，传统方法不提供有限样本保证，现有CP方法忽略推理链与最终答案的逻辑关联，且缺乏不确定性覆盖来源的解释。

🛠️ 方法

提出量化推理-答案结构不确定性的新方法（带统计保证），开发统一的example-to-step解释框架（Shapley值），识别保持保证的充分训练样本子集和关键推理步骤。

📊 效果

在多个挑战性推理数据集上验证了方法有效性，提供了理论分析保证。

🤖 AI 评价

理论贡献扎实，将共形预测与推理链结构结合是创新点。Shapley值解释框架增加了可解释性。但计算成本可能很高（Shapley值），实际部署的可行性需要讨论。实验部分描述较简略。

标签: Uncertainty Quantification, Conformal Prediction, Reasoning Models, Explainability

8. Towards Scalable Lightweight GUI Agents via Multi-role Orchestration

作者: Ziwei Wang, Junjie Zheng, Leyang Yang, Sheng Zhou, et al.
评分: ⭐⭐⭐ (7/10)
链接: https://arxiv.org/abs/2604.13488
类别: cs.AI

🔍 核心内容

提出LAMO框架，通过多角色编排赋予轻量MLLM GUI自动化能力，开发3B参数的原生GUI Agent LAMO-3B，支持单体执行和多Agent系统编排。

❓ 解决的问题

GUI Agent面临成本-可扩展性困境：大模型部署成本高，轻量模型在复杂场景下能力不足且任务可扩展性差，训练多个领域专家成本高昂。

🛠️ 方法

角色导向数据合成+两阶段训练：(1)监督微调（困惑度加权交叉熵进行知识蒸馏和视觉感知增强）；(2)强化学习进行角色导向协作探索。支持单体执行和MAS编排。

📊 效果

LAMO-3B作为即插即用的策略执行器配合高级规划器可持续受益于规划器进步，静态和在线评估验证了设计有效性。

🤖 AI 评价

思路清晰，多角色编排是轻量化GUI Agent的实用方向。3B参数级别的GUI Agent有实际部署价值。两阶段训练设计合理。但缺少与同量级模型的直接定量对比数据。

标签: GUI Agent, Lightweight Model, Multi-Agent, Reinforcement Learning

9. SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

作者: Qibin Liu, Julia Gonski
评分: ⭐⭐⭐ (6/10)
链接: https://arxiv.org/abs/2604.13180
类别: cs.AI

🔍 核心内容

提出一个安全、轻量、用户友好的自主AI Agent框架，用于科学研究中结构化任务的端到端自动化执行。

❓ 解决的问题

现有Agentic AI系统在真实科研部署中可靠性不足，缺乏安全机制，难以实现无需人工干预的全自动化。

🛠️ 方法

结合隔离执行环境、三层Agent循环和自评估do-until机制，聚焦具有明确上下文和停止标准的结构化任务，支持不同能力级别的LLM。

📊 效果

框架能够安全可靠地执行结构化科学任务，减少人工干预，让研究者将更多精力投入创造性工作。但缺少具体量化实验数据。

🤖 AI 评价

实用性强，设计理念好（安全+轻量+自主），三层循环和自评估机制是亮点。但论文缺少与现有框架的系统性对比实验和定量评估，说服力不足。名字SciFi容易与科幻混淆。

标签: Agentic AI, Scientific Computing, Automation, Safety

10. Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

作者: Mohamed-Bachir Belaid
评分: ⭐⭐⭐ (6/10)
链接: https://arxiv.org/abs/2604.13283
类别: cs.AI

🔍 核心内容

研究在约束条件未知的条件下进行对地观测卫星调度优化，提出主动约束获取方法CCA，嵌入Learn&Optimize框架。

❓ 解决的问题

实际卫星调度中，操作约束（观测间隔、功率预算、热限制等）往往嵌入在工程构件或仿真器中而非显式数学模型，传统方法假设约束已知不适用。

🛠️ 方法

提出Conservative Constraint Acquisition (CCA)高效识别约束同时避免过度收紧，嵌入Learn&Optimize框架交替进行优化和约束查询。

📊 效果

在50任务规模下，L&O比无知识贪心基线将平均差距从65-68%降至17.7-35.8%，比两阶段基线FAO更少查询（21.3 vs 100）且更快（5倍）。

🤖 AI 评价

问题定义有实际意义，将约束获取与优化结合是合理的思路。实验在合成数据上完成，规模偏小（最多50任务），距离真实卫星调度场景有差距。单作者工作，完成度不错。

标签: Constraint Acquisition, Satellite Scheduling, Combinatorial Optimization

📈 今日统计

论文总数: 10 篇
数据来源: ArXiv RSS (cs.AI, cs.LG, cs.CL, cs.CV, cs.RO)
更新时间: 2026-04-18

本报告由 AI 自动生成，仅供参考。论文观点不代表本站立场。