ArXiv 每日论文精选 | 2026-03-24

March 24, 2026 3-minute read

arXiv • 论文阅读 • AI研究 • 每日精选 • 机器学习

📚 ArXiv 每日论文精选 | 2026-03-24

自动精选今日 ArXiv 最新 AI/ML 论文，AI 深度解读核心内容、方法、效果与评价。

1. Hyperagents

作者: [‘Jenny Zhang’, ‘Bingchen Zhao’, ‘Wannan Yang’, ‘Jakob Foerster’, ‘Jeff Clune’, ‘Minqi Jiang’, ‘Sam Devlin’, ‘Tatiana V. A. C. D. etc.’]
评分: ⭐⭐⭐⭐ (9/10)
链接: https://arxiv.org/abs/2603.19461
类别: unknown

🔍 核心内容

提出Hyperagents框架，一种自引用智能体系统，集成了任务智能体和元智能体，元级修改过程本身可编辑，实现元认知自我修改。

❓ 解决的问题

现有自改进AI系统依赖固定、手工制作的元级机制，限制了改进速度。DGM假设任务性能与自修改技能对齐，但这种对齐在编程领域之外不成立。

🛠️ 方法

扩展DGM创建DGM-H，消除领域特定对齐假设。任务智能体解决目标任务，元智能体修改自己和任务智能体。关键是元级修改过程本身可编辑，支持任何可计算任务的自我加速进步。

📊 效果

在多个领域随时间改进性能，超越无自改进或开放式探索的基线及先前自改进系统。元级改进（如持久记忆、性能跟踪）跨领域迁移并跨运行累积。

🤖 AI 评价

创新性极高，提出了真正的元认知自修改框架，突破了DGM的领域限制。理论上可应用于任何可计算任务，意义重大。实用性方面，实验已证明在多个领域有效。潜在风险是开放式自改进可能导致不可预测行为，需要安全机制。这是迈向通用人工智能的重要一步。

标签: 自改进AI, 元认知, 开放式学习, 通用智能, Darwin Gödel Machine

2. PowerLens: Taming LLM Agents for Safe and Personalized Mobile Power Management

作者: [‘Xingyu Feng’, ‘Chang Sun’, ‘Yuzhu Wang’, ‘Zhangbing Zhou’, ‘Chengwen Luo’, ‘Zhuangzhuang Chen’, ‘Xiaomin Ouyang’, ’etc.’]
评分: ⭐⭐⭐⭐ (9/10)
链接: https://arxiv.org/abs/2603.19584
类别: unknown

🔍 核心内容

PowerLens利用LLM的常识推理能力，在Android设备上实现安全且个性化的移动电源管理，通过多智能体架构从UI语义识别用户上下文并生成跨18个设备参数的电源策略。

❓ 解决的问题

现有电源管理依赖静态规则或粗粒度启发式，忽略用户活动和偏好。电池寿命仍是移动设备的关键挑战，缺乏上下文感知和个性化。

🛠️ 方法

多智能体架构识别用户上下文，生成跨18个设备参数的整体电源策略。PDL约束框架在执行前验证每个动作。双层记忆系统通过隐式用户覆盖学习个性化偏好，基于置信度的蒸馏在3-5天内收敛。

📊 效果

在rooted Android设备上实现81.7%的动作准确率和38.8%的节能（相比原生Android），超越基于规则和LLM的基线。用户满意度高，偏好收敛快，系统自身仅消耗0.5%的日电池容量。

🤖 AI 评价

创新性高，将LLM应用于移动电源管理是新颖的想法，常识推理填补了语义鸿沟。实用性极强，直接解决电池寿命痛点，节能效果显著。安全性设计完善，约束框架确保安全。个性化学习无需显式配置，用户体验好。缺点是需要在rooted设备上运行，可能限制普及。对移动AI应用有重要价值。

标签: 移动电源管理, LLM智能体, 个性化, Android, 上下文感知

3. A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

作者: [‘Taiyi Wang’, ‘Sian Gooding’, ‘Florian Hartmann’, ‘Oriana Riva’, ‘Edward Grefenstette’]
评分: ⭐⭐⭐⭐ (9/10)
链接: https://arxiv.org/abs/2603.19685
类别: unknown

🔍 核心内容

提出子目标驱动框架和MiRA（Milestoning RL Enhanced Agent），利用专有模型进行在线子目标分解规划，使用密集的里程碑奖励信号进行RL训练，显著提升长视野LLM智能体性能。

❓ 解决的问题

LLM智能体在长视野规划中面临两大挑战：在线执行时随新信息到达而迷失方向；RL微调时稀疏延迟奖励使智能体难以识别成功动作，无法在扩展任务中保持连贯推理。

🛠️ 方法

引入智能体框架，利用专有模型通过子目标分解进行在线规划。提出MiRA RL训练框架，使用密集的里程碑奖励信号。实时规划机制改进专有模型，MiRA应用于开源模型。

📊 效果

实时规划使Gemini在WebArena-Lite上成功率提升约10%。MiRA使Gemma3-12B从6.4%提升到43.0%，超越GPT-4-Turbo（17.6%）、GPT-4o（13.9%）和WebRL（38.4%）。

🤖 AI 评价

创新性极高，子目标分解和里程碑奖励的组合非常有效。性能提升惊人，开源模型超越专有模型是重大突破。实用性高，适用于网页导航、移动界面等数字环境。方法论严谨，实验充分。缺点可能是训练需要大量计算资源。对长视野智能体研究有里程碑意义。

标签: 长视野规划, 子目标分解, 强化学习, 网页导航, 里程碑奖励

4. Stepwise: Neuro-Symbolic Proof Search for Automated Systems Verification

作者: [‘Baoding He’, ‘Zenan Li’, ‘Wei Sun’, ‘Yuan Yao’, ‘Taolue Chen’, ‘Xiaoxing Ma’, ‘Zhendong Su’]
评分: ⭐⭐⭐⭐ (9/10)
链接: https://arxiv.org/abs/2603.19715
类别: unknown

🔍 核心内容

引入神经符号证明生成框架，自动化系统级验证项目的证明搜索，对证明状态执行最佳优先树搜索，反复查询LLM获取下一个候选证明步骤。

❓ 解决的问题

通过交互式定理证明进行的形式化验证日益用于确保关键系统正确性，但构造大型证明脚本仍高度依赖人工，限制了可扩展性。

🛠️ 方法

使用证明状态-步骤对数据集微调LLM。结合ITP工具修复拒绝的步骤、过滤和排序证明状态、在搜索停滞时自动解决子目标。实现在新Isabelle REPL上，暴露细粒度证明状态和自动化工具。

📊 效果

在FVEL seL4基准和额外Isabelle开发上评估。在seL4上证明高达77.6%的定理，大幅超越先前LLM方法和独立Sledgehammer，解决了显著更多的多步证明。

🤖 AI 评价

创新性高，神经符号结合在形式化验证中效果显著。性能突破明显，77.6%的自动化证明率是重要里程碑。实用性高，对系统验证项目有直接价值。通用性强，在多个基准上表现良好。缺点是依赖特定定理证明器（Isabelle）。对自动化软件验证有重要推进作用。

标签: 形式化验证, 神经符号推理, Isabelle, seL4, 自动化证明

5. When both Grounding and not Grounding are Bad – A Partially Grounded Encoding of Planning into SAT (Extended Version)

作者: [‘João Filipe’, ‘Gregor Behnke’]
评分: ⭐⭐⭐⭐ (8/10)
链接: https://arxiv.org/abs/2603.19429
类别: unknown

🔍 核心内容

探索了经典规划问题中完全提升（lifted）和完全接地（grounded）之间的中间地带，提出了三种新的SAT编码方法，保持动作在提升层面，同时对谓词进行部分接地。

❓ 解决的问题

传统规划器需要完全接地提升表示，可能导致指数级规模爆炸；而完全提升的方法虽然避免了接地，但在某些场景下性能受限。需要在两者间找到平衡。

🛠️ 方法

提出三种SAT编码策略，保持动作在提升层面，仅对谓词进行部分接地。相比传统SAT编码随计划长度二次增长，新方法呈线性增长，适合处理更长的计划。

📊 效果

在难以接地的领域（hard-to-ground domains）中，最优编码在长度最优规划方面超越了当前最先进方法，在长计划任务上表现尤其出色。

🤖 AI 评价

创新性强，巧妙地在提升和接地之间找到平衡点。线性增长的特性使其在长计划任务中具有明显优势。实用性较高，可直接应用于现有SAT规划器。缺点可能在于需要针对不同领域选择合适的编码策略。对经典规划领域有重要贡献。

标签: SAT编码, 经典规划, 部分接地, 组合优化

6. Learning to Disprove: Formal Counterexample Generation with Large Language Models

作者: [‘Zenan Li’, ‘Zhaoyu Li’, ‘Kaiyu Yang’, ‘Xiaoxing Ma’, ‘Zhendong Su’]
评分: ⭐⭐⭐⭐ (8/10)
链接: https://arxiv.org/abs/2603.19514
类别: unknown

🔍 核心内容

填补了数学推理中反例生成的研究空白，微调大语言模型生成形式化反例，不仅提出候选反例，还在Lean 4中生成可自动验证的形式化证明。

❓ 解决的问题

当前AI数学研究几乎完全聚焦于证明构造，忽视了同样重要的反例发现任务。缺乏有效的训练数据和框架来学习反例生成。

🛠️ 方法

引入符号变异策略，系统性地从定理中丢弃选定的假设来合成多样化的反例训练数据。结合精选数据集，使用多奖励专家迭代框架增强LLM的反例生成和定理证明能力。

📊 效果

在三个新收集的基准测试上验证了优势，变异策略和训练框架带来显著的性能提升，LLM能有效生成并验证反例。

🤖 AI 评价

创新性强，首次系统性地将LLM应用于形式化反例生成，填补了重要研究空白。符号变异策略巧妙，能生成高质量训练数据。实用性高，对形式化验证和数学教育有应用价值。缺点是依赖Lean 4，可能限制推广。对AI数学推理领域有重要贡献。

标签: 形式化验证, 反例生成, Lean 4, 定理证明, 符号推理

7. PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning

作者: [‘Tianmeng Hu’, ‘Biao Luo’]
评分: ⭐⭐⭐⭐ (8/10)
链接: https://arxiv.org/abs/2603.19579
类别: unknown

🔍 核心内容

提出PA2D-MORL方法，基于Pareto上升方向分解，构建高效的多目标问题分解和策略改进方案，实现更好的Pareto策略集近似。

❓ 解决的问题

在具有连续或高维状态-动作空间的复杂任务中，实现高质量Pareto策略集近似仍然具有挑战性，现有方法在质量和稳定性上存在不足。

🛠️ 方法

利用Pareto上升方向选择标量化权重，计算多目标策略梯度确定优化方向，确保所有目标的联合改进。在进化框架下选择性优化多个策略，从不同方向近似Pareto前沿。应用Pareto自适应微调增强前沿密度和分布。

📊 效果

在各种多目标机器人控制任务上，在结果质量和稳定性方面明显超越当前最先进算法。

🤖 AI 评价

创新性高，Pareto上升方向分解是巧妙的技术贡献。方法论严谨，结合了梯度优化和进化框架的优势。实用性高，在机器人控制等实际任务中表现优异。缺点可能是计算复杂度较高，需要优化多个策略。对多目标决策领域有重要贡献。

标签: 多目标强化学习, Pareto优化, 机器人控制, 进化算法, 策略优化

8. HyEvo: Self-Evolving Hybrid Agentic Workflows for Efficient Reasoning

作者: [‘Beibei Xu’, ‘Yutong Ye’, ‘Chuyun Shen’, ‘Yingbo Zhou’, ‘Cheng Chen’, ‘Mingsong Chen’]
评分: ⭐⭐⭐⭐ (8/10)
链接: https://arxiv.org/abs/2603.19639
类别: unknown

🔍 核心内容

HyEvo是一个自动化工作流生成框架，利用异构原子合成，集成概率LLM节点（语义推理）和确定性代码节点（规则执行），通过LLM驱动的多岛屿进化策略优化混合工作流。

❓ 解决的问题

现有自动化工作流生成方法效率低且性能不佳，依赖预定义算子库和同构的纯LLM工作流，所有任务级计算都通过概率推理完成，成本高且延迟大。

🛠️ 方法

将可预测操作从LLM推理卸载到确定性代码节点，减少推理成本和执行延迟。采用LLM驱动的多岛屿进化策略，通过反思-生成机制和执行反馈迭代优化工作流拓扑和节点逻辑。

📊 效果

在多个推理和编程基准上持续超越现有方法，相比最先进开源基线，推理成本和执行延迟分别减少高达19倍和16倍。

🤖 AI 评价

创新性高，异构合成思想巧妙，将LLM和代码节点结合是高效的设计。进化策略和反思机制使工作流自动优化。实用性极强，显著降低成本和延迟，对工业应用有吸引力。缺点可能是工作流搜索空间大，优化时间可能较长。对智能体工作流自动化有重要贡献。

标签: 智能体工作流, 异构合成, 进化算法, 成本优化, 自动化

9. Teaching an Agent to Sketch One Part at a Time

作者: [‘Xiaodan Du’, ‘Ruize Xu’, ‘David Yunis’, ‘Yael Vinker’, ‘Greg Shakhnarovich’]
评分: ⭐⭐⭐ (7/10)
链接: https://arxiv.org/abs/2603.19500
类别: unknown

🔍 核心内容

开发了一种逐部分生成矢量草图的方法，使用多模态语言模型智能体，结合新颖的多轮过程奖励强化学习和监督微调。

❓ 解决的问题

现有的文本到矢量草图生成方法缺乏可解释性、可控性和局部可编辑性，无法按语义部分逐步生成草图。

🛠️ 方法

创建ControlSketch-Part数据集，包含丰富的部分级注释。通过自动注释管道将矢量草图分割成语义部分。训练多模态LLM智能体，使用过程奖励强化学习，并提供视觉反馈。

📊 效果

实现了可解释、可控和局部可编辑的文本到矢量草图生成，能够按语义部分逐步创建草图，支持精确编辑和控制。

🤖 AI 评价

创新性良好，将草图生成分解为部分级任务，提高了可控性。实用性强，适用于设计工具和创意应用。数据集构建的自动化管道具有通用性。缺点可能是部分分割的准确性依赖自动化方法，可能引入噪声。对创意AI工具开发有实际价值。

标签: 草图生成, 多模态LLM, 强化学习, 矢量图形, 创意AI

10. ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

作者: [‘Tianlong Wang’, ‘Pinqiao Wang’, ‘Weili Shi’, ‘Sheng li’]
评分: ⭐⭐⭐ (7/10)
链接: https://arxiv.org/abs/2603.19515
类别: unknown

🔍 核心内容

引入ItinBench基准测试，将空间推理（路线优化）整合到旅行行程规划中，同时保留传统的语言推理任务，评估LLM在多认知维度上的表现。

❓ 解决的问题

传统评估聚焦于受控环境中的特定推理或规划问题，缺乏整合多认知领域任务的综合测试平台。LLM在同时处理多个认知维度时的能力未被充分评估。

🛠️ 方法

构建包含空间推理和语言推理的旅行规划基准，评估Llama 3.1 8B、Mistral Large、Gemini 1.5 Pro和GPT系列等多个LLM在多任务上的并发表现。

📊 效果

发现LLM在同时处理多个认知维度时难以保持高且一致的性能，揭示了现有模型在真实世界复杂任务中的局限性。

🤖 AI 评价

创新性中等，将空间推理引入LLM评估是一个有价值的扩展。实用性高，为构建更全面的推理测试平台提供了新见解。实验设计合理，覆盖多个主流模型。缺点可能是基准规模和复杂度有限，可能无法完全反映真实世界挑战。对LLM能力评估有参考价值。

标签: 基准测试, 多认知维度, 旅行规划, 空间推理, LLM评估

📈 今日统计

论文总数: 10 篇
数据来源: ArXiv RSS (cs.AI, cs.LG, cs.CL, cs.CV, cs.RO)
更新时间: 2026-03-24

本报告由 AI 自动生成，仅供参考。论文观点不代表本站立场。