ArXiv 每日论文精选 | 2026-04-05

April 5, 2026 3-minute read

arXiv • 论文阅读 • AI研究 • 每日精选 • 机器学习

📚 ArXiv 每日论文精选 | 2026-04-05

自动精选今日 ArXiv 最新 AI/ML 论文，AI 深度解读核心内容、方法、效果与评价。

1. Scaling Reasoning Tokens via RL and Parallel Thinking: Evidence From Competitive Programming

作者: Qianfan Zhang, Tianyu Guo, Xuandi Ren, Jiale Chen, Ming Ding, Ran Xin, Xia Xiao
评分: ⭐⭐⭐⭐ (9/10)
链接: https://arxiv.org/abs/2604.01302
类别: cs.CL

🔍 核心内容

通过强化训练和并行思考两种方式研究如何扩展推理令牌预算，在编程竞赛任务中验证了多轮并行推理的有效性，显著提升了模型在复杂推理任务中的表现。

❓ 解决的问题

单代推理在训练过程中计算成本过高，难以处理复杂的推理任务，缺乏有效的令牌分配机制。

🛠️ 方法

引入多轮并行思考管道，将推理预算分布在多个线程和推理轮次中，结合验证和优化环节，通过端到端训练使模型匹配测试时结构。

📊 效果

16线程×16轮次系统在平均760万令牌下达到或超过基础RL模型的oracle pass@16表现，在456个高难度编程问题中超越GPT-5-high。

🤖 AI 评价

在推理效率上具有显著优势，为复杂推理任务提供了新的解决方案。但实验局限于编程竞赛领域，需要进一步验证在其他推理任务中的泛化能力，计算资源需求依然较高。

标签: 推理扩展, 并行计算, 编程竞赛, 强化学习, 计算效率

2. Procedural Knowledge at Scale Improves Reasoning

作者: Di Wu, Devendra Singh Sachan, Wen-tau Yih, Mingda Chen
评分: ⭐⭐⭐⭐ (9/10)
链接: https://arxiv.org/abs/2604.01348
类别: cs.CL

🔍 核心内容

提出推理记忆框架，通过检索增强生成大规模重用程序性知识，将推理轨迹分解为子问题-子程序对，构建3200万个程序知识条目，显著提升数学、科学和编程推理性能。

❓ 解决的问题

现有推理方法将每个问题孤立处理，未能系统重用先前的推理轨迹，特别是对程序性知识（如何重构问题、选择方法、验证回溯）的利用不足。

🛠️ 方法

构建检索增强生成的推理记忆框架，在推理过程中检索相关子程序作为隐式程序先验，通过轻量级思维提示让模型表达核心子问题。

📊 效果

在六个数学、科学和编程基准测试上持续优于其他RAG方法，无检索相比提升最高达19.2%，最强计算匹配基线相比提升7.9%。

🤖 AI 评价

首次实现程序性知识的大规模重用，在推理任务中表现卓越。但依赖于现有推理轨迹的质量和覆盖范围，在全新领域应用受限，且检索和分解设计仍有优化空间。

标签: 程序性知识, 检索增强, 推理记忆, 知识重用, 多任务学习

3. Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

作者: Itay Yona, Dan Barzilay, Michael Karasik, Mor Geva
评分: ⭐⭐⭐⭐ (9/10)
链接: https://arxiv.org/abs/2604.01404
类别: cs.CL

🔍 核心内容

研究语言模型中实体知识的内部机制，通过模板化提示定位实体选择性的MLP神经元，验证单神经元激活足以恢复实体一致预测，揭示了语言模型中实体检索的稀疏因果可操作访问点。

❓ 解决的问题

语言模型能够回答许多面向实体的实事实问问题，但涉及哪些内部机制尚不清楚，缺乏对实体知识编码方式的理解。

🛠️ 方法

使用模板化提示定位实体选择性神经元，通过因果干预验证，在PopQA基础上评估，研究其对别名、缩写、拼写错误和多语言形式的支持。

📊 效果

在200个实体上，局部化神经元集中在早期层；单个神经元激活足以恢复实体一致预测，对实体形式变化具有鲁棒性。

🤖 AI 评价

首次成功定位实体相关的因果可操作神经元，为理解语言模型内部机制提供了重要见解。但效果并非普遍适用，对热门实体的覆盖度更高，需要进一步改进方法以处理更广泛的实体。

标签: 实体检索, 神经元定位, 因果干预, 知识表示, 语言模型内部

4. The Overlooked Repetitive Lengthening Form in Sentiment Analysis

作者: Lei Wang, Eduard Dragut
评分: ⭐⭐⭐⭐ (8/10)
链接: https://arxiv.org/abs/2604.01268
类别: cs.CL

🔍 核心内容

研究了重复长度格式（RLF）在情感分析中的重要性，创建了首个专注于RLF的多领域数据集，并提出了可解释指令调优框架ExpInstruct，提升大语言模型对非正式表达的理解能力。

❓ 解决的问题

长期以来被忽视的RLF表达方式在在线情感分析中具有重要价值，但现有语言模型对这类非正式表达的理解有限，缺乏专门的数据集和调优方法。

🛠️ 方法

构建850k样本的Lengthening数据集，提出两阶段指令调优框架ExpInstruct，结合可量化的评估方法来测试模型对RLF的理解程度，并与GPT-4进行对比。

📊 效果

微调的预训练语言模型在RLF性能上超越零样本GPT-4，ExpInstruct框架使开源大模型在有限样本下达到GPT-4的性能和可解释性水平。

🤖 AI 评价

创新性地填补了RLF研究的空白，数据集和框架具有很强的实用价值。但局限在于主要集中于情感分析领域，对其他类型的非正式表达研究不足，且可解释性仍有提升空间。

标签: 情感分析, 非正式语言, 指令调优, 可解释性, 数据集

5. M2-Verify: A Large-Scale Multidomain Benchmark for Checking Multimodal Claim Consistency

作者: Abolfazl Ansari, Delvin Ce Zhang, Zhuoyang Zou, Wenpeng Yin, Dongwon Lee
评分: ⭐⭐⭐⭐ (8/10)
链接: https://arxiv.org/abs/2604.01306
类别: cs.CL

🔍 核心内容

构建了大规模多模态数据集M2-Verify，用于评估科学论断与多模态证据间的一致性，涵盖16个领域的469K个实例，解决了现有基准在规模、领域多样性和视觉复杂度上的不足。

❓ 解决的问题

现有基准在评估科学论断一致性时缺乏足够规模、领域多样性和视觉复杂度，难以真实模拟复杂场景下的对齐评估。

🛠️ 方法

从PubMed和arXiv收集数据，通过专家审核确保质量，建立基线模型评估，并进行专家评估以发现模型的幻觉问题。

📊 效果

最先进模型在低复杂度医学扰动上达到85.8% Micro-F1，但在高复杂度解剖学偏移任务上降至61.6%，暴露了模型在复杂场景下的一致性缺陷。

🤖 AI 评价

数据集规模宏大、领域覆盖广泛，具有很强的实用价值。但模型在高复杂度任务上表现不佳，暴露了当前技术在多模态一致性评估上的局限性，需要进一步改进模型架构和训练方法。

标签: 多模态, 一致性检查, 基准测试, 科学评估, 幻觉检测

6. Preference learning in shades of gray: Interpretable and bias-aware reward modeling for human preferences

作者: Simona-Vasilica Oprea, Adela B^ara
评分: ⭐⭐⭐⭐ (8/10)
链接: https://arxiv.org/abs/2604.01312
类别: cs.CL

🔍 核心内容

研究了人类偏好学习的灰色地带问题，提出特征增强框架来捕获人类判断的多维性质，通过整合可解释信号提升模型对偏好学习的理解，并提供详细的偏差分析。

❓ 解决的问题

当前偏好学习方法难以处理微妙的、主观的比较或灰色地带的偏好，而非明确的二元标签，导致ROC AUC低于0.74。

🛠️ 方法

结合响应长度、拒绝指标、毒性分数和语义相似度等可解释信号，使用SHAP和LIME提供细粒度可解释性，并分析偏差放大效应。

📊 效果

混合方法在所有模型上一致改进，达到0.84 ROC AUC，显著提升成对准确率，DeBERTav3Large表现最佳。

🤖 AI 评价

有效解决了偏好学习的灰色地带问题，提供了可解释框架和偏差分析。但主要基于特定数据集，需要验证在其他类型偏好数据上的泛化能力，且特征交互的复杂性增加了模型的不确定性。

标签: 偏好学习, 奖励建模, 可解释性, 偏差分析, 特征工程

7. No Attacker Needed: Unintentional Cross-User Contamination in Shared-State LLM Agents

作者: Tiankai Yang, Jiate Li, Yi Nian, Shen Dong, Ruiyao Xu, Ryan Rossi, Kaize Ding, Yue Zhao
评分: ⭐⭐⭐⭐ (8/10)
链接: https://arxiv.org/abs/2604.01350
类别: cs.CL

🔍 核心内容

研究了共享状态LLM代理中的非意图跨用户污染问题，发现在单一代理服务多个用户时，本地有效的信息可能被错误地重新应用到其他用户，导致污染率高达57-71%。

❓ 解决的问题

共享状态代理在跨用户场景下存在信息泄露风险，当前缺乏针对可执行工件的防御机制，存在静默错误回答的风险。

🛠️ 方法

建立控制评估协议，定义三种污染类型，在两种共享状态机制中进行评估，测试写入时净化的有效性。

📊 效果

在原始共享状态下，良性交互 alone就产生57-71%的污染率；写入时净化对会话状态有效，但对可执行工件仍有显著残留风险。

🤖 AI 评价

首次系统性地识别和量化了跨用户污染问题，实验设计严谨。但研究主要集中在特定场景，需要更多防御机制研究，特别是在可执行工件处理方面的改进。

标签: 共享状态, 跨用户污染, 安全漏洞, 代理架构, 信息隔离

8. Adaptive Stopping for Multi-Turn LLM Reasoning

作者: Xiaofan Zhou, Huy Nguyen, Bo Yu, Chenxi Liu, Lu Cheng
评分: ⭐⭐⭐⭐ (8/10)
链接: https://arxiv.org/abs/2604.01413
类别: cs.CL

🔍 核心内容

提出多轮语言模型与合意预测框架（MiCP），为多轮推理提供正式覆盖保证，在不同推理轮次分配不同误差预算，在保证覆盖率的同时减少推理轮次、推理成本和预测集大小。

❓ 解决的问题

现有多轮推理方法依赖于启发式停止规则或固定轮次预算，无法保证最终预测包含正确答案，在金融、医疗等高风险领域存在风险。

🛠️ 方法

MiCP框架在自适应RAG和ReAct上验证，使用合意预测提供覆盖保证，减少推理轮次，同时引入新的评估指标。

📊 效果

在单跳和多跳问答基准上达到目标覆盖率，同时减少推理轮次、推理成本和预测集大小，提出的评估指标有效评估覆盖有效性和回答效率。

🤖 AI 评价

首次为多轮推理提供合意预测框架，在高风险场景具有实际应用价值。但实验主要集中在问答领域，需要验证在更复杂多轮推理任务中的适用性，计算开销仍然较大。

标签: 多轮推理, 自适应停止, 合意预测, 风险控制, 效率优化

9. Open-Domain Safety Policy Construction

作者: Di Wu, Siyue Liu, Zixiang Ji, Ya-Liang Chang, Zhe-Yu Liu, Andrew Pleffer, Kai-Wei Chang
评分: ⭐⭐⭐ (7/10)
链接: https://arxiv.org/abs/2604.01354
类别: cs.CL

🔍 核心内容

提出深度政策研究（DPR）系统，仅基于人类编写的种子领域信息即可制定完整的内容审核政策，使用单一网络搜索工具和轻量级支架结构迭代构建政策规则。

❓ 解决的问题

特定领域安全政策的制定和维护成本高昂，缺乏系统化的政策构建方法，现有方法依赖于模板或上下文学习效果不佳。

🛠️ 方法

DPR系统提出搜索查询、提炼多样化网络源为政策规则、将规则组织为索引文档，在OpenAI不良内容基准和内部多模态广告审核基准上进行评估。

📊 效果

在五个领域上一致优于仅定义和上下文学习基线，在端到端设置中与专家编写的政策部分相当，在相同规格下优于通用深度研究系统。

🤖 AI 评价

为开放域安全政策构建提供了有效解决方案，在多个领域表现出色。但依赖于网络搜索的质量，政策内容的深度和专业性仍有提升空间，需要更多的领域专家验证。

标签: 安全政策, 内容审核, 自动化, 政策构建, 代理系统

10. Assessing Pause Thresholds for empirical Translation Process Research

作者: Devi Sri Bandaru, Michael Carl, Xinyue Ren
评分: ⭐⭐⭐ (6/10)
链接: https://arxiv.org/abs/2604.01410
类别: cs.CL

🔍 核心内容

研究文本生产中的按键暂停现象，比较了三种计算暂停阈值的近期方法，并提出了用于计算生产单元中断的新方法，为翻译过程研究提供了重要的方法论基础。

❓ 解决的问题

翻译过程中的暂停阈值确定存在长期争论，现有的阈值计算方法各有优劣，缺乏统一的标准方法。

🛠️ 方法

基于对自动化与反思性翻译过程分离的讨论，比较三种近期计算暂停阈值的方法，评估新的生产单元中断计算方法。

📊 效果

提供了暂停阈值计算的系统性比较，提出了新颖的生产单元中断方法，为翻译过程研究提供了更精确的测量工具。

🤖 AI 评价

在翻译过程研究领域具有重要方法论贡献，为暂停阈值的确定提供了新的视角。但研究主要集中在翻译过程，需要验证在文本生产其他领域中的应用价值，方法的实用性还需进一步验证。

标签: 翻译研究, 过程分析, 暂停阈值, 文本生产, 方法论

📈 今日统计

论文总数: 10 篇
数据来源: ArXiv RSS (cs.AI, cs.LG, cs.CL, cs.CV, cs.RO)
更新时间: 2026-04-05

本报告由 AI 自动生成，仅供参考。论文观点不代表本站立场。