HuggingFace Daily Papers 周报

统计周期: 2026-03-17 至 2026-03-23
论文总数: 50 篇（从 175 篇中精选）

本周概览

本周 HuggingFace Daily Papers 呈现出视频生成向世界模型演进的强劲趋势，多项工作将扩散模型从简单的视觉合成推向具备物理一致性和长期时空连贯性的"世界模拟器"。同时，Agent 自我进化与元学习成为新热点，Hyperagents、Memento-Skills 等工作展示了 LLM Agent 从被动执行者向自主设计者的范式转变。在基础模型层面，训练效率优化（如 ET Routing、FlashSampling）和架构创新（如 Attention Residuals、MoDA）持续推动模型效率边界，而多语言支持（Omnilingual MT 支持 1600+ 语言）则显著扩展了 AI 的全球可及性。

重点论文精选

1. Hyperagents：自指式 Agent 框架

标题: Hyperagents: Self-Referential Agents that Design Agents
链接: HuggingFace | arXiv

核心贡献: 提出了一种"自指式 Agent"框架，将任务 Agent 和元 Agent（负责修改自身和任务 Agent）整合到单一可编辑程序中。关键创新在于元级修改过程本身也是可编辑的，实现了元认知自我修改——不仅改进任务解决行为，还改进生成未来改进的机制本身。

为什么值得关注: 这是对 AI 自我改进能力的重要探索。与依赖固定手工元级机制的传统方法不同，Hyperagents 打破了任务性能与自我修改技能之间的领域特定对齐假设，为开放式、跨领域的自我加速进步提供了可能路径。

2. MosaicMem：可控视频世界模型的混合空间记忆

标题: MosaicMem: Hybrid Spatial Memory for Controllable Video World Models
链接: HuggingFace | arXiv

核心贡献: 提出混合空间记忆机制，将 patch 提升到 3D 空间实现可靠定位和定向检索，同时利用模型原生条件保持提示跟随生成能力。通过 patch-and-compose 接口在查询视图中组合空间对齐的 patch，实现分钟级导航、基于记忆的场景编辑和自回归展开。

为什么值得关注: 解决了视频世界模型中空间记忆的关键瓶颈——显式 3D 结构虽能改善重投影一致性但难以处理运动物体，隐式记忆则往往产生不准确的相机运动。MosaicMem 在两者之间取得了优雅的平衡。

3. Demystifying Video Reasoning：视频推理机制解密

标题: Demystifing Video Reasoning
链接: HuggingFace | arXiv

核心贡献: 挑战了视频模型推理沿帧序列展开的"帧链"(CoF) 假设，揭示推理主要沿扩散去噪步骤涌现——称为"步骤链"(CoS)。发现模型在早期去噪步骤探索多个候选解并逐步收敛，还识别出工作记忆、自我修正和"先感知后行动"等涌现推理行为。

为什么值得关注: 为理解和利用视频生成模型的内在推理动力学提供了系统性框架，证明推理可以纯粹在去噪过程中涌现，而非依赖帧间序列。

4. Nemotron-Cascade 2：30B MoE 达到前沿推理能力

标题: Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation
链接: HuggingFace | arXiv

核心贡献: 发布 30B MoE 模型（3B 激活参数），是继 DeepSeekV3.2 之后第二个在 2025 年 IMO、IOI 和 ICPC 世界总决赛达到金牌水平的开源 LLM，且参数量仅为前者的 1/20。引入多域在线策略蒸馏，从各领域最强中间教师模型恢复基准回归。

为什么值得关注: 证明了高"智能密度"（intelligence density）的可行性——用 20 倍更少的参数达到前沿推理性能，对资源受限部署场景意义重大。

5. MolmoBot：大规模仿真实现零样本机器人操作

标题: MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation
链接: HuggingFace | arXiv

核心贡献: 挑战"仿真不足够"的传统观点，通过大规模多样化仿真合成训练数据实现零样本真实世界迁移。发布 180 万专家轨迹数据集 MolmoBot-Data，在桌面操作任务上达到 79.2% 成功率，超越 π₀.₅ 的 39.2%。

为什么值得关注: 证明了纯仿真训练可以产生鲁棒的、广泛泛化到真实世界的操作策略，无需任何真实世界微调，大幅降低机器人学习的数据成本。

6. Omnilingual MT：支持 1600+ 语言的机器翻译

标题: Omnilingual MT: Machine Translation for 1,600 Languages
链接: HuggingFace | arXiv

核心贡献: 发布首个支持超过 1600 种语言的机器翻译系统，通过整合大规模公共多语言语料库和新创建的手工策划 bitext 数据集实现。1B-8B 参数模型匹配或超越 70B LLM 基线的翻译性能，在低计算设置下实现强翻译质量。

为什么值得关注: 相比现有系统约 200 种语言的覆盖，这是向真正"全语种"AI 迈出的重要一步，显著扩展了 AI 的全球可及性。

7. FASTER：重新思考实时流 VLAs

标题: FASTER: Rethinking Real-Time Flow VLAs
链接: HuggingFace | arXiv

核心贡献: 提出时间感知调度（Horizon-Aware Schedule），自适应优先处理近期动作的流采样，将即时反应的去噪压缩 10 倍到单步，同时保持长期轨迹质量。在乒乓球等高度动态任务上验证了前所未有的实时响应能力。

为什么值得关注: 揭示了流 VLAs 中反应时间遵循由首次动作时间和执行范围共同决定的均匀分布，通过调度创新解锁了通用策略的实时响应能力。

8. V-JEPA 2.1：解锁视频自监督学习的密集特征

标题: V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning
链接: HuggingFace | arXiv

核心贡献: 结合四个关键组件：密集预测损失、深度自监督、多模态分词器和有效扩展。在 Ego4D 短期物体交互预测达到 7.71 mAP，EPIC-KITCHENS 高级动作预测达到 40.8 Recall@5，真实机器人抓取成功率比 V-JEPA-2 AC 提升 20 个百分点。

为什么值得关注: 在密集视觉理解和世界建模方面取得 SOTA，同时保持强全局场景理解，为具身 AI 提供了高质量视觉表示基础。

9. AI Can Learn Scientific Taste：AI 学习科学品味

标题: AI Can Learn Scientific Taste
链接: HuggingFace | arXiv

核心贡献: 提出社区反馈强化学习（RLCF）训练范式，在 70 万对高/低引用论文上训练 Scientific Judge，并用其作为奖励模型训练 Scientific Thinker 提出高潜在影响的研究想法。实验显示 Scientific Judge 超越 GPT-5.2、Gemini 3 Pro 等 SOTA LLM。

为什么值得关注: 首次系统性地将"科学品味"——判断和提出高影响研究想法的能力——形式化为偏好建模和对齐问题，是迈向人类水平 AI 科学家的重要一步。

10. PRISM：揭秘中间训练的保留与交互

标题: PRISM: Demystifying Retention and Interaction in Mid-Training
链接: HuggingFace | arXiv

核心贡献: 跨 7 个基础模型（4 个家族、2 种架构、3B-24B 规模）的系统研究表明：约 27B 高质量 token 的中间训练在数学上带来 +15-40 分提升，在代码上 +5-12 分，在科学上 +6-13 分。发现数据组合在中间训练阶段最关键（而非 RL 阶段）。

为什么值得关注: 提供了关于中间训练设计选择的全面实证研究，证明保留感知的中间训练对可靠推理增强高度有效，并给出实用设计指导。

11. HopChain：多跳数据合成提升视觉语言推理

标题: HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning
链接: HuggingFace | arXiv

核心贡献: 提出可扩展的多跳视觉语言推理数据合成框架，每个多跳查询形成逻辑依赖链——早期 hop 建立后续 hop 所需的实例、集合或条件。将合成数据加入 Qwen3.5 RLVR 训练，在 24 个基准测试中 20 个获得提升，长 CoT 视觉语言推理提升峰值超过 50 个准确率点。

为什么值得关注: 针对现有 RLVR 数据缺乏复杂推理链的局限，证明多跳数据能有效暴露并改善 VLM 在感知、推理、知识和幻觉等方面的复合失败模式。

12. Attention Residuals：学习深度方向的注意力

标题: Attention Residuals
链接: HuggingFace | arXiv

核心贡献: 用对前层输出的 softmax 注意力替代固定单位权重的残差累积，允许每层以学习到的、输入相关的权重选择性聚合早期表示。集成到 Kimi Linear 架构（48B 总参数/3B 激活）并在 1.4T token 上预训练，改善了跨深度的输出幅度和梯度分布。

为什么值得关注: 揭示了 PreNorm 导致的隐藏状态增长和层贡献稀释问题，提供了内容依赖的深度方向选择机制，是残差连接的重要改进。

13. Efficient Exploration at Scale：10 倍数据效率提升

标题: Efficient Exploration at Scale
链接: HuggingFace | arXiv

核心贡献: 开发在线学习算法，用不到 20K 标签匹配离线 RLHF 在 200K 标签上的性能（10 倍数据效率提升）。外推结果表明，1M 标签训练有望匹配 1B 标签的离线 RLHF（1000 倍提升）。

为什么值得关注: 首次证明如此大规模的数据效率改进是可能的，通过增量更新奖励和语言模型、认知神经网络建模奖励不确定性、信息导向探索实现。

14. Alignment Makes LLMs Normative：对齐使 LLM 规范化

标题: Alignment Makes Language Models Normative, Not Descriptive
链接: HuggingFace | arXiv

核心贡献: 在 10,000+ 真实人类决策上比较 120 对基础-对齐模型，发现基础模型在预测多轮策略博弈中的人类选择上以近 10:1 优于对齐模型。但在单次教科书博弈和非策略彩票选择上，对齐模型占主导。

为什么值得关注: 揭示了对齐带来的规范性偏置——当人类行为相对符合规范解时改善预测，但在受互惠、报复和历史依赖适应等描述性动力学影响的多轮策略设置中损害预测。这是优化人类使用与作为人类行为代理之间的根本权衡。

15. Seoul World Model：真实城市的世界模型

标题: Grounding World Simulation Models in a Real-World Metropolis
链接: HuggingFace | arXiv

核心贡献: 提出基于真实首尔市的城市级世界模型，通过检索增强条件将自回归视频生成锚定到附近街景图像。引入跨时间配对、大规模合成数据集和视图插值管道解决时间错位、轨迹多样性有限和数据稀疏等挑战。

为什么值得关注: 首个锚定于真实城市的世界模型，能在数百米轨迹上生成空间忠实、时间一致的长时视频，支持多样相机运动和文本提示场景变化。

其余论文速览

视频生成与编辑

Astrolabe — 蒸馏自回归视频模型的前向过程 RL 框架，通过负感知微调建立隐式策略改进方向。
LumosX — 个性化视频生成框架，通过关系自注意力实现精确的人脸-属性对齐。
EgoForge — 自我中心目标导向世界模拟器，从单张图像和高级指令生成连贯的第一人称视频。
FlowScene — 基于多模态图整流流的风格一致室内场景生成，联合生成布局、形状和纹理。
3DreamBooth — 3D 感知的主体驱动视频生成，解耦空间几何与时间运动。
SAMA — 指令引导视频编辑的语义锚定与运动对齐框架，无需外部先验。
StereoWorld — 相机条件立体世界模型，联合学习外观和双目几何。
SparkVSR — 交互式视频超分辨率，通过稀疏关键帧传播实现可控恢复。
ViFeEdit — 无需视频训练数据的视频扩散 Transformer 调优框架。
OneWorld — 在 3D 统一表示空间直接进行扩散的场景生成框架。

视觉语言模型与多模态理解

WorldAgents — 探索 2D 基础图像模型是否具备 3D 世界模型能力，通过多 Agent 架构合成可探索的 3D 一致世界。
VEGA-3D — 利用视频生成模型的隐式空间先验增强 MLLM 的 3D 场景理解。
Loc3R-VLM — 为 2D VLM 配备 3D 理解能力，通过全局布局重建和情境建模实现语言定位。
DeepVision-VLA — 视觉-语言混合 Transformer 框架，将多层视觉特征注入 VLA 骨干深层。
FINER — 揭示 MLLM 在细粒度负查询下的幻觉问题，提出 DPO 微调方法。
Tinted Frames — 发现 VLM 根据语言框架调节对视觉输入的注意力，约束框架（选择/是非题）诱导更低注意力。
LVOmniBench — 首个长音频-视频跨模态理解基准，10-90 分钟视频、1014 个 QA 对。
VTC-Bench — 评估 MLLM 工具使用能力的视觉工具链基准，32 个 OpenCV 操作。
Cognitive Mismatch — 揭示 MLLM 在离散符号理解上的认知不匹配现象。

Agent 与强化学习

Memento-Skills — 记忆驱动的 Agent 自我改进框架，通过技能库实现持续学习。
Subgoal-driven Framework — 子目标分解的 LLM Agent 框架，将 Gemma3-12B 在 WebArena-Lite 上从 6.4% 提升到 43.0%。
Complementary RL — 受神经科学启发的互补学习系统，Actor 和经验提取器协同进化。
ARISE — 分层 RL 框架，技能库与推理能力协同进化。
MetaClaw — 持续元学习框架，技能驱动快速适应和机会主义策略优化。
Video-CoE — 事件链范式增强视频事件预测。
AdaMem — 自适应用户中心记忆框架，组织对话历史为工作/情节/人格/图记忆。
MiroThinker — 验证驱动的研究 Agent，支持重负荷推理。
Online Experiential Learning — 从部署经验持续学习的框架。
Anticipatory Planning — 预测性轨迹推理的多模态 Agent 框架。

3D 生成与理解

LoST — 语义层级的 3D 形状分词，按语义显著性排序 token。
DreamPartGen — 语义基础的部件级 3D 生成。
SegviGen — 复用原生 3D 生成模型进行部件分割。
MonoArt — 单目关节化 3D 重建，通过渐进结构推理实现。
Matryoshka GS — 连续细节层级的高斯溅射。
SK-Adapter — 骨架控制的 3D 生成适配器。
CHROMM — 多人多视角视频的连贯人-场景重建。
HSImul3R — 物理循环的人-场景交互重建。
M³ — 多视角基础模型与密集匹配结合的单目高斯溅射 SLAM。

LLM 训练与优化

MHPO — 调制风险感知策略优化，通过生存分析累积风险函数调节策略偏移。
ET Routing — 专家阈值路由，每个专家维护 EMA 阈值实现动态计算分配。
RAMP — 强化自适应混合精度量化，学习每层位宽分配。
MDM-Prime-v2 — 二进制编码和索引洗牌实现扩散语言模型的计算最优扩展。
MoDA — 深度混合注意力，每个注意力头可关注当前层和前层的 KV。
xLSTM Distillation — 有效蒸馏到混合 xLSTM 架构。
FlashSampling — 融合到 LM head matmul 的精确采样原语。
GradMem — 测试时梯度下降将上下文写入记忆。
IOMM — 仅图像预训练的统一多模态模型。

多语言与翻译

XBridge — 编码器-LLM-解码器组合架构，将多语言能力卸载到翻译模型。
SimulU — 长形式同声语音到语音翻译的首个免训练策略。
WALAR — 仅用单语文本的强化多语言翻译训练。
F2LLM-v2 — 200+ 语言的多语言嵌入模型家族。
PARSA-Bench — 波斯语音频语言模型基准。
Polyglot-Lion — 针对新加坡语言环境的高效多语言 ASR。

评估与基准

AgentDS — 领域特定数据科学的人-AI 协作基准，17 个挑战、29 个团队。
ESPIRE — 具身空间推理诊断基准。
EnterpriseOps-Gym — 企业环境下的状态 Agent 规划基准。
SWE-Skills-Bench — 评估 Agent 技能在真实软件工程中的效用。
AgentProcessBench — 工具使用 Agent 的步骤级过程质量诊断。
CCTU — 复杂约束下的工具使用基准。
MMOU — 长复杂真实世界视频的海量多任务全模态理解基准。
ECG-Reasoning-Bench — 心电图解释的临床推理评估。
VAREX — 文档多模态结构化提取基准。
WebVR — 从视频复现网页的基准。
EvoClaw — 持续软件演化的 Agent 评估。
FinToolBench — 金融工具使用 Agent 评估。
One-Eval — 自动化可追溯的 LLM 评估 Agent 系统。

应用与专业领域

InCoder-32B — 面向工业场景的代码基础模型，覆盖芯片设计、GPU 核优化等。
Qianfan-OCR — 统一文档智能的端到端模型，图像到 Markdown 直接转换。
MOSS-TTS — 基于离散音频 token 的语音生成基础模型。
OSMDA — 基于 OpenStreetMap 的遥感 VLM 域适应。
Fanar-Sadiq — 多 Agent 伊斯兰问答架构。
TERMINATOR — CoT 推理的早停退出策略。
ReBalance — 高效平衡思考的免训练框架。
ViT-AdaLA — 用线性注意力适配视觉 Transformer。
HeBA — 医学 VLM 的异构瓶颈适配器。
AdapterTune — 冻结 ViT 的零初始化低秩适配器。
StyleExpert — 多样图像风格化的专家混合框架。
LEAD — 潜在熵感知解码缓解 MLRM 幻觉。
POLCA — 基于 LLM 的随机生成优化框架。
SRLM — 自反思程序搜索增强递归语言模型。
Reasoning over Mathematical Objects — 数学对象推理的训练配方。
Semi-Autonomous Formalization — VML 系统平衡态的 Lean 4 形式化。
Motivation in LLMs — 探究 LLM 中的"动机"现象。
Understanding Reasoning — 通过不确定性下的策略信息分配理解推理。
Code-A1 — 代码 LLM 和测试 LLM 的对抗协同进化。
CoTj — 基于图论规划的扩散模型轨迹链。
WiT — 通过轨迹冲突导航的路点扩散 Transformer。
V-Co — 视觉共去噪的系统性研究。
MDM-Prime-v2 — 扩散语言模型的二进制编码和索引洗牌。
BERTology of MPP — 分子性质预测的化学语言模型研究。
Idea-Catalyst — LLM 驱动的跨学科灵感激发框架。
HOIL — LiDAR 点云 3D 人体姿态估计的人-物交互学习。
VID-AD — 视觉诱导干扰下的逻辑异常检测数据集。
MultiTempBench — 多语言时间推理基准。
MEMO — 鲁棒多轮多 Agent LLM 博弈的记忆增强模型上下文优化。
Residual Stream Duality — 现代 Transformer 架构中的残差流对偶性。
Safe and Scalable Web Agent Learning — 通过重建网站实现安全可扩展的 Web Agent 学习。
PokeAgent Challenge — 竞争性和长上下文学习挑战。

本周趋势洞察

1. 视频生成向"世界模型"进化

本周最显著的趋势是视频生成从单纯的视觉合成向具备物理一致性和长期时空连贯性的"世界模拟器"演进。MosaicMem 的混合空间记忆、Seoul World Model 的真实城市锚定、StereoWorld 的双目几何联合学习等工作，都体现了从"生成好看的视频"到"模拟可交互的世界"的转变。这为具身 AI、机器人仿真和 VR/AR 应用奠定了基础。

2. Agent 自我进化成为新热点

Hyperagents 的"自指式 Agent"概念和 Memento-Skills 的"Agent 设计 Agent"范式，标志着 Agent 研究从被动执行者向自主进化者的范式转变。这类工作打破了传统系统对固定手工机制的依赖，为开放式、跨领域的自我加速进步提供了可能。Complementary RL、ARISE 等工作则在技能库与推理能力的协同进化上做出贡献。

3. 训练效率优化的多维突破

本周在训练效率方面呈现多维度创新：数据效率（Efficient Exploration at Scale 证明 10-1000 倍数据效率提升可能）、计算效率（ET Routing 的动态计算分配、FlashSampling 的融合采样）、架构效率（Attention Residuals、MoDA 的深度方向注意力）。这些工作共同推动着模型效率边界。

4. 多语言能力的大幅扩展

Omnilingual MT 支持 1600+ 语言、F2LLM-v2 覆盖 200+ 语言、XBridge 将多语言能力卸载到翻译模型，这些工作显著扩展了 AI 的全球可及性。特别是对低资源语言的支持，代表了从"高资源语言中心"向"全语种覆盖"的重要转变。

5. 对齐与描述性建模的权衡被揭示

"Alignment Makes LLMs Normative" 这篇工作揭示了一个重要但常被忽视的权衡：优化人类使用偏好（对齐）与作为人类行为代理（描述性建模）之间存在根本冲突。对齐后的模型更擅长规范性推理，但在预测真实人类行为（尤其是策略博弈中的描述性动力学）方面反而更差。

6. 纯仿真实现零样本真实世界迁移

MolmoBot 挑战了"仿真不足够"的传统观点，通过大规模多样化仿真实现零样本真实世界机器人操作，在桌面任务上达到 79.2% 成功率。这大幅降低了机器人学习的数据成本，为具身 AI 的发展提供了新路径。

7. "科学品味"可被 AI 学习

"AI Can Learn Scientific Taste" 首次系统性地将科学品味——判断和提出高影响研究想法的能力——形式化为可学习的偏好建模问题，是迈向人类水平 AI 科学家的重要一步。

8. 基准测试向复杂场景深化

本周涌现大量针对复杂场景的新基准：EnterpriseOps-Gym 评估企业环境下的状态 Agent 规划、MMOU 测试长复杂视频的全模态理解、EvoClaw 评估持续软件演化能力。这些基准共同推动了评估从"单点任务"向"长时程复杂场景"的演进。

报告生成时间: 2026-03-23

🤗 HuggingFace 论文周报