HuggingFace 论文周报

📅 2026-02-17 ~ 2026-02-23 | Top 50 篇 HuggingFace Daily Papers

本周概览

本周 AI 研究呈现三大核心趋势：Agent 系统的可靠性与安全性成为焦点，多篇论文从安全审计、隐私泄露、人机协作等角度审视 Agent 部署风险；高效推理与训练优化持续火热，涵盖 Sparse Attention、模型压缩、RL 训练稳定性等方向；具身智能与机器人领域涌现大量工作，从人形机器人操作到触觉迁移、世界模型规划，展现出 VLA/World Model 范式的快速迭代。此外，Diffusion Language Model、统一多模态模型、以及 Scaling Law 的实证研究也值得关注。

重点论文精选

1. GLM-5: from Vibe Coding to Agentic Engineering

GLM-5：从 Vibe Coding 到智能体工程
🔗 HuggingFace | arXiv
核心贡献： 智谱发布 GLM-5，采用 DSA 架构大幅降低训练/推理成本，提出异步 RL 基础设施将生成与训练解耦，以及新的异步 Agent RL 算法。在主流开放基准上达到 SOTA，尤其在真实世界编程任务中展现出色能力。
为什么值得关注： 代表了从"辅助编码"到"自主工程"的范式转变，异步 Agent RL 的设计对长 horizon 交互学习有重要参考价值。

2. Mobile-Agent-v3.5 / GUI-Owl-1.5: Multi-platform Fundamental GUI Agents

多平台基础 GUI 智能体
🔗 HuggingFace | arXiv
核心贡献： 发布 GUI-Owl-1.5 系列模型（2B~235B），支持桌面/移动/浏览器多平台，在 20+ GUI 基准上开源 SOTA。提出 Hybrid Data Flywheel、统一思维合成 pipeline、多平台环境 RL 算法 MRPO。OSWorld 56.5、AndroidWorld 71.6。
为什么值得关注： 首个真正覆盖全平台、支持 MCP 工具调用和多智能体协作的开源 GUI Agent 模型家族。

3. SAGE: Does Your Reasoning Model Implicitly Know When to Stop Thinking?

你的推理模型其实知道何时该停止思考
🔗 HuggingFace | arXiv
核心贡献： 发现大型推理模型（LRM）内隐地知道合适的停止思考时机，但被当前采样范式掩盖。提出 SAGE 采样范式释放高效推理潜力，结合 SAGE-RL 将高效推理模式内化到标准推理中，同时提升准确性和效率。
为什么值得关注： 直击 CoT 冗余这一核心痛点，为推理效率优化提供了全新视角。

4. SpargeAttention2: Trainable Sparse Attention

可训练稀疏注意力：混合 Top-k+Top-p 与蒸馏微调
🔗 HuggingFace | arXiv
核心贡献： 提出混合 Top-k/Top-p masking 规则、高效可训练实现、蒸馏式微调目标，在视频扩散模型上实现 95% attention 稀疏度和 16.2× 加速，同时保持生成质量。
为什么值得关注： 在扩散模型推理效率上取得突破性进展，95% 稀疏度是一个令人印象深刻的数字。

5. Arcee Trinity Large: 400B MoE Technical Report

Arcee Trinity Large 技术报告
🔗 HuggingFace | arXiv
核心贡献： 400B 总参数 / 13B 激活的稀疏 MoE 模型，采用交错 local/global attention、门控注意力、sigmoid routing 等现代架构，提出新的 MoE 负载均衡策略 SMEBU。使用 Muon 优化器训练 17T tokens，零 loss spike。
为什么值得关注： 完整展示了现代大规模 MoE 训练的工程实践，SMEBU 和零 loss spike 的训练稳定性值得学习。

6. DreamZero: World Action Models are Zero-shot Policies

世界动作模型即零样本策略
🔗 HuggingFace | arXiv
核心贡献： 基于预训练视频扩散骨干构建 World Action Model，联合建模视频和动作，在新任务/环境上泛化能力比 SOTA VLA 提升 2×+。14B 自回归视频扩散模型实现 7Hz 实时闭环控制。支持跨具身迁移，仅需 30 分钟 play data。
为什么值得关注： 用视频扩散模型做机器人控制的范式创新，跨具身 few-shot 适应能力极具实用价值。

7. Frontier AI Risk Management Framework v1.5

前沿 AI 风险管理框架实践 v1.5
🔗 HuggingFace | arXiv
核心贡献： 从网络攻击、说服操纵、战略欺骗、不可控 AI R&D、自我复制五个维度全面评估前沿 AI 风险。新增 LLM-to-LLM 说服、涌现错位实验、Agent 自主扩展记忆和工具集的"错误进化"等场景。特别评估了 OpenClaw 在 Moltbook 上的安全表现。
为什么值得关注： 系统性的前沿 AI 安全评估框架，对 Agent 自主演化风险的关注非常前瞻。

8. STAPO: Stabilizing RL for LLMs by Silencing Rare Spurious Tokens

通过静默罕见伪标记稳定 LLM 强化学习
🔗 HuggingFace | arXiv
核心贡献： 证明 RL 训练不稳定性由约 0.01% 的"伪标记"驱动——它们对推理无贡献但继承了完整序列奖励，导致梯度异常放大。提出 STAPO 选择性屏蔽这些更新，在六个数学推理基准上比 GRPO 平均提升 7.13%。
为什么值得关注： 精确定位了 RL 训练崩溃的微观原因，提供了简洁有效的解决方案。

9. Towards a Science of AI Agent Reliability

迈向 AI Agent 可靠性科学
🔗 HuggingFace | arXiv
核心贡献： 提出 12 个具体指标，从一致性、鲁棒性、可预测性、安全性四个维度分解 Agent 可靠性。评估 14 个模型发现，近期能力提升只带来了微小的可靠性改进。
为什么值得关注： 将 Agent 评估从单一成功率扩展到多维可靠性画像，对实际部署有直接指导意义。

10. Magma: On Surprising Effectiveness of Masking Updates in Adaptive Optimizers

自适应优化器中 Masking 更新的惊人效果
🔗 HuggingFace | arXiv
核心贡献： 发现随机 mask 参数更新可诱导曲率相关的几何正则化。提出 Magma 优化器，利用动量-梯度对齐调制 mask 更新，1B 模型上困惑度比 Adam 降低 19%、比 Muon 降低 9%。
为什么值得关注： 极简但有效的优化器改进，可作为 Adam/Muon 的 drop-in 替代。

11. Computer-Using World Model (CUWM)

计算机使用世界模型
🔗 HuggingFace | arXiv
核心贡献： 首个桌面软件世界模型，预测给定动作后的下一个 UI 状态。采用两阶段分解：先预测文本状态变化描述，再可视化合成下一帧截图。通过 test-time action search 让冻结 Agent 模拟比较候选动作后再执行。
为什么值得关注： 为 GUI Agent 引入"先想后做"的决策机制，显著提升执行鲁棒性。

12. RynnBrain: Open Embodied Foundation Models

开源具身智能基础模型
🔗 HuggingFace | arXiv
核心贡献： 统一框架强化自我中心理解、时空定位、物理推理、物理感知规划四大能力。提供 2B/8B/30B-A3B MoE 三种规模及四个下游微调变体。在 20 个具身基准和 8 个通用视觉基准上大幅超越现有具身基础模型。
为什么值得关注： 具身智能领域首个真正统一的开源基础模型，覆盖从感知到规划的全链路。

13. ResearchGym: Evaluating Language Model Agents on Real-World AI Research

评估 AI Agent 的端到端科研能力
🔗 HuggingFace | arXiv
核心贡献： 从 ICML/ICLR/ACL 五篇论文构建容器化研究环境（39 个子任务），Agent 需提出假设、跑实验、超越人类基线。GPT-5 仅 6.7% 评估中超过基线，但单次运行曾超越 ICML 2025 Spotlight 方案。
为什么值得关注： 首次系统量化 AI Agent 的完整科研能力，揭示了能力-可靠性的巨大鸿沟。

14. Experiential Reinforcement Learning (ERL)

体验式强化学习
🔗 HuggingFace | arXiv
核心贡献： 在 RL 中嵌入"体验-反思-巩固"循环：模型先尝试，收到反馈后反思并生成改进方案，成功修正被强化内化到基础策略中。在复杂多步环境中最高提升 81%，工具推理任务提升 11%。
为什么值得关注： 将自我反思从推理时转移到训练时，部署时无额外成本。

其余论文速览

🤖 Agent 系统与人机交互

论文	一句话摘要
Calibrate-Then-Act (CTA)	让 LLM Agent 显式推理成本-不确定性权衡，实现更优的环境探索策略
Modeling Human Intervention in Web Agents	识别四种用户干预模式，训练模型预测干预时机，Agent 有用性提升 26.5%
Learning Personalized Agents (PAHF)	通过显式用户记忆和双反馈通道实现 Agent 在线持续个性化
SkillsBench	86 个任务评估 Agent Skills，精选 Skills 平均提升 16.2pp，但自生成 Skills 无效
Learning to Configure Agentic AI (ARC)	用 RL 学习按 query 动态配置 Agent 工作流/工具/预算，准确率最高提升 25%
What Are You Doing? (Agentic Feedback)	车载 Agent 中间反馈显著提升感知速度、信任和用户体验
Knowing Isn't Understanding	论证生成式 Agent 主动性需同时具备认识论和行为论基础

🔒 安全、对齐与评估

论文	一句话摘要
A Trajectory-Based Safety Audit of Clawdbot	首个 OpenClaw 轨迹级安全审计，6 个风险维度 34 个场景，揭示模糊意图下的典型失败模式
NESSiE Safety Benchmark	提出 LLM 安全的必要条件测试，SOTA 模型都无法 100% 通过基础安全检查
NeST: Neuron Selective Tuning	仅调整 0.44M 安全相关神经元，攻击成功率从 44.5% 降至 4.36%
Prefill Attacks on Open-Weight Models	最大规模 prefill 攻击研究，所有主流开权重模型均存在系统性漏洞
Visual Memory Injection Attacks	操纵图片使 LVLM 在多轮对话后被触发输出指定信息，可用于广告/政治操纵
SPILLage: Agentic Oversharing	形式化 Web Agent 隐私泄露问题，行为泄露是内容泄露的 5 倍
HLE-Verified	系统性验证修订 Humanity's Last Exam，修正后模型准确率提升 7-10pp
Does Socialization Emerge in AI Society? (Moltbook)	首个大规模 AI Agent 社会诊断：规模和交互密度不足以产生社会化
CrispEdit: Non-Destructive LLM Editing	基于 K-FAC 的二阶编辑算法，编辑成功率高且能力退化低于 1%
References Improve LLM Alignment	参考引导的 LLM 评估器在不可验证领域实现有效自我改进

🎨 生成模型与视觉

论文	一句话摘要
DDiT: Dynamic Patch for DiTs	动态 tokenization 按内容复杂度和降噪步调整 patch 大小，FLUX 3.52× / Wan 2.1 3.2× 加速
SLA2: Sparse-Linear Attention	可学习路由 + 低精度注意力，视频扩散模型 97% 稀疏度、18.6× 加速
Unified Latents (UL)	扩散先验联合正则化潜在表示，ImageNet-512 FID 1.4，Kinetics-600 FVD 1.3
BitDance	二进制 token 自回归图像生成，FID 1.24，1024×1024 比先前 AR 快 30×
UniWeTok	统一二进制 tokenizer（2^128 codebook），同时支持理解和生成，FID 1.38
FireRed-Image-Edit	指令图像编辑 SOTA，100M+ 高质量样本，DPO+OCR reward+一致性损失
AMD: Adaptive Matching Distillation	自校正蒸馏避免 Forbidden Zone，SDXL HPSv2 从 30.64 提升至 31.25
ViewRope	几何感知位置编码注入相机射线方向，解决视频世界模型的 3D 一致性漂移
AnchorWeave	用多个局部几何记忆替代全局重建，显著改善长程视频生成的场景一致性
EditCtrl	仅在 mask 区域计算的高效视频编辑，比全注意力方法快 10× 且质量更好
R3: Understanding vs. Generation	"生成-理解-再生成"框架缓解多模态模型中理解与生成的优化冲突

🧠 模型架构与训练

论文	一句话摘要
2Mamba2Furious	精简 Mamba-2 到核心组件后改进 A-mask 和隐状态阶数，准确度接近 softmax attention
REFINE: Reinforced Fast Weights	用 RL+GRPO 在 next-sequence prediction 目标下训练快速权重模型，改善长上下文建模
COMPOT: Transformer Compression	正交字典+Procrustes 闭式更新的免训练压缩框架，超越 SVD 和稀疏基线
Modular Addition Mechanism	完整机制解释神经网络如何学习模加法，揭示 grokking 的三阶段过程
Sanity Checks for SAEs	随机基线在可解释性、稀疏探针、因果编辑上匹配完全训练的 SAE
Platonic → Aristotelian Representation	校准后全局表示趋同消失，但局部邻域关系仍显著一致
ArXiv-to-Model	从原始 LaTeX 训练科学 LM 的完整工程实践，预处理决策显著影响可用 token 量
Prescriptive Scaling Laws	预测性 scaling law：给定算力预算可达到的下游准确率，数学推理边界持续提升
Hardware Co-Design Scaling Laws	联合建模准确率和推理延迟的硬件协同设计 scaling law，同延迟下困惑度降低 19.42%

🦾 具身智能与机器人

论文	一句话摘要
HERO: Humanoid End-Effector Control	残差感知末端执行器追踪+开放词汇视觉模型，人形机器人在多样真实环境中操作物体
EgoPush	自我中心视角多物体推排整理，object-centric 潜空间+阶段性奖励，零样本 sim-to-real
TactAlign	跨具身触觉对齐方法，不到 5 分钟人类数据即可迁移到机器人，支持零样本转移
FRAPPE	通过未来表示对齐增强 VLA 模型世界感知，在 RoboTwin 和真实任务上超越 SOTA
Legato	训练时连续性方法解决 action chunking 边界不连续，任务完成时间和平滑度均提升约 10%
StarWM	星际争霸 II 首个世界模型，Simulate-Refine 决策循环在 Hard~VeryHard AI 上胜率提升 15-30%

📊 基准、数据集与工具

论文	一句话摘要
MAEB: Massive Audio Embedding Benchmark	30 个任务 100+ 语言的音频嵌入评估，无单一模型全面占优
UniT: Unified Multimodal CoT Test-time Scaling	统一模型多轮推理/验证/改进，短推理轨迹可泛化到长推理链
Panini: Continual Learning via Structured Memory	用 QA 网络替代原始文档的语义记忆，答案上下文 token 减少 2-30×
AutoWebWorld	用 FSM 合成可验证 Web 环境，$0.04/条轨迹，WebVoyager 上 SOTA
WebWorld	首个开放 Web 模拟器，1M+ 交互训练，Qwen3-14B 在 WebArena 提升 9.2%，超 GPT-5
Discovering MARL Algorithms with LLMs	用 AlphaEvolve 自动发现博弈论学习算法 VAD-CFR 和 SHOR-PSRO
Data Darwinism	提出数据-模型协同进化十级分类法，900B token 科学语料库

🏥 领域应用

论文	一句话摘要
ClinAlign	7,034 例医生验证偏好 + 119 条临床原则，30B/3B 激活模型在 HealthBench-Hard 超越 o3
CellMaster	LLM 驱动的零样本单细胞注释 Agent，在稀有细胞亚型上比基线提升 22.1%
OPBench	首个阿片类药物危机图学习基准，五数据集三应用领域
SARAH: Spatially Aware Conversational Humans	实时空间感知对话动作生成，VR 部署 300+ FPS

🔬 其他有趣工作

论文	一句话摘要
Qute: Quantum-Native Database	将 SQL 编译为量子电路的混合量子数据库，在真实量子处理器上验证
ENSO Sonification with Gamelan	用爪哇甘美兰音阶将厄尔尼诺数据声音化，保留了关键动力学特征
Vision Wormhole	利用 VLM 视觉接口实现异构多 Agent 无文本潜空间通信
Causal-JEPA	对象级掩码实现潜在干预的世界模型，反事实推理提升约 20%

本周趋势洞察

研究方向分布

Agent 系统（含 GUI/Web/搜索 Agent）：约 30%，本周最热门方向
生成模型与高效推理：约 25%，稀疏注意力和动态 tokenization 成为加速主流路径
具身智能与机器人：约 15%，VLA 和 World Model 范式快速迭代
安全与对齐：约 15%，从安全评估到攻击防御全面覆盖
模型架构与训练优化：约 10%
领域应用与基准：约 5%

🤗 HuggingFace 论文周报