返回 2026-02-23 汇总

🤗 HuggingFace 论文周报

2026-02-23

HuggingFace 论文周报

📅 2026-02-17 ~ 2026-02-23 | Top 50 篇 HuggingFace Daily Papers

本周概览

本周 AI 研究呈现三大核心趋势:Agent 系统的可靠性与安全性成为焦点,多篇论文从安全审计、隐私泄露、人机协作等角度审视 Agent 部署风险;高效推理与训练优化持续火热,涵盖 Sparse Attention、模型压缩、RL 训练稳定性等方向;具身智能与机器人领域涌现大量工作,从人形机器人操作到触觉迁移、世界模型规划,展现出 VLA/World Model 范式的快速迭代。此外,Diffusion Language Model、统一多模态模型、以及 Scaling Law 的实证研究也值得关注。


重点论文精选

1. GLM-5: from Vibe Coding to Agentic Engineering

2. Mobile-Agent-v3.5 / GUI-Owl-1.5: Multi-platform Fundamental GUI Agents

3. SAGE: Does Your Reasoning Model Implicitly Know When to Stop Thinking?

4. SpargeAttention2: Trainable Sparse Attention

5. Arcee Trinity Large: 400B MoE Technical Report

6. DreamZero: World Action Models are Zero-shot Policies

7. Frontier AI Risk Management Framework v1.5

8. STAPO: Stabilizing RL for LLMs by Silencing Rare Spurious Tokens

9. Towards a Science of AI Agent Reliability

10. Magma: On Surprising Effectiveness of Masking Updates in Adaptive Optimizers

11. Computer-Using World Model (CUWM)

12. RynnBrain: Open Embodied Foundation Models

13. ResearchGym: Evaluating Language Model Agents on Real-World AI Research

14. Experiential Reinforcement Learning (ERL)


其余论文速览

🤖 Agent 系统与人机交互

论文 一句话摘要
Calibrate-Then-Act (CTA) 让 LLM Agent 显式推理成本-不确定性权衡,实现更优的环境探索策略
Modeling Human Intervention in Web Agents 识别四种用户干预模式,训练模型预测干预时机,Agent 有用性提升 26.5%
Learning Personalized Agents (PAHF) 通过显式用户记忆和双反馈通道实现 Agent 在线持续个性化
SkillsBench 86 个任务评估 Agent Skills,精选 Skills 平均提升 16.2pp,但自生成 Skills 无效
Learning to Configure Agentic AI (ARC) 用 RL 学习按 query 动态配置 Agent 工作流/工具/预算,准确率最高提升 25%
What Are You Doing? (Agentic Feedback) 车载 Agent 中间反馈显著提升感知速度、信任和用户体验
Knowing Isn't Understanding 论证生成式 Agent 主动性需同时具备认识论和行为论基础

🔒 安全、对齐与评估

论文 一句话摘要
A Trajectory-Based Safety Audit of Clawdbot 首个 OpenClaw 轨迹级安全审计,6 个风险维度 34 个场景,揭示模糊意图下的典型失败模式
NESSiE Safety Benchmark 提出 LLM 安全的必要条件测试,SOTA 模型都无法 100% 通过基础安全检查
NeST: Neuron Selective Tuning 仅调整 0.44M 安全相关神经元,攻击成功率从 44.5% 降至 4.36%
Prefill Attacks on Open-Weight Models 最大规模 prefill 攻击研究,所有主流开权重模型均存在系统性漏洞
Visual Memory Injection Attacks 操纵图片使 LVLM 在多轮对话后被触发输出指定信息,可用于广告/政治操纵
SPILLage: Agentic Oversharing 形式化 Web Agent 隐私泄露问题,行为泄露是内容泄露的 5 倍
HLE-Verified 系统性验证修订 Humanity's Last Exam,修正后模型准确率提升 7-10pp
Does Socialization Emerge in AI Society? (Moltbook) 首个大规模 AI Agent 社会诊断:规模和交互密度不足以产生社会化
CrispEdit: Non-Destructive LLM Editing 基于 K-FAC 的二阶编辑算法,编辑成功率高且能力退化低于 1%
References Improve LLM Alignment 参考引导的 LLM 评估器在不可验证领域实现有效自我改进

🎨 生成模型与视觉

论文 一句话摘要
DDiT: Dynamic Patch for DiTs 动态 tokenization 按内容复杂度和降噪步调整 patch 大小,FLUX 3.52× / Wan 2.1 3.2× 加速
SLA2: Sparse-Linear Attention 可学习路由 + 低精度注意力,视频扩散模型 97% 稀疏度、18.6× 加速
Unified Latents (UL) 扩散先验联合正则化潜在表示,ImageNet-512 FID 1.4,Kinetics-600 FVD 1.3
BitDance 二进制 token 自回归图像生成,FID 1.24,1024×1024 比先前 AR 快 30×
UniWeTok 统一二进制 tokenizer(2^128 codebook),同时支持理解和生成,FID 1.38
FireRed-Image-Edit 指令图像编辑 SOTA,100M+ 高质量样本,DPO+OCR reward+一致性损失
AMD: Adaptive Matching Distillation 自校正蒸馏避免 Forbidden Zone,SDXL HPSv2 从 30.64 提升至 31.25
ViewRope 几何感知位置编码注入相机射线方向,解决视频世界模型的 3D 一致性漂移
AnchorWeave 用多个局部几何记忆替代全局重建,显著改善长程视频生成的场景一致性
EditCtrl 仅在 mask 区域计算的高效视频编辑,比全注意力方法快 10× 且质量更好
R3: Understanding vs. Generation "生成-理解-再生成"框架缓解多模态模型中理解与生成的优化冲突

🧠 模型架构与训练

论文 一句话摘要
2Mamba2Furious 精简 Mamba-2 到核心组件后改进 A-mask 和隐状态阶数,准确度接近 softmax attention
REFINE: Reinforced Fast Weights 用 RL+GRPO 在 next-sequence prediction 目标下训练快速权重模型,改善长上下文建模
COMPOT: Transformer Compression 正交字典+Procrustes 闭式更新的免训练压缩框架,超越 SVD 和稀疏基线
Modular Addition Mechanism 完整机制解释神经网络如何学习模加法,揭示 grokking 的三阶段过程
Sanity Checks for SAEs 随机基线在可解释性、稀疏探针、因果编辑上匹配完全训练的 SAE
Platonic → Aristotelian Representation 校准后全局表示趋同消失,但局部邻域关系仍显著一致
ArXiv-to-Model 从原始 LaTeX 训练科学 LM 的完整工程实践,预处理决策显著影响可用 token 量
Prescriptive Scaling Laws 预测性 scaling law:给定算力预算可达到的下游准确率,数学推理边界持续提升
Hardware Co-Design Scaling Laws 联合建模准确率和推理延迟的硬件协同设计 scaling law,同延迟下困惑度降低 19.42%

🦾 具身智能与机器人

论文 一句话摘要
HERO: Humanoid End-Effector Control 残差感知末端执行器追踪+开放词汇视觉模型,人形机器人在多样真实环境中操作物体
EgoPush 自我中心视角多物体推排整理,object-centric 潜空间+阶段性奖励,零样本 sim-to-real
TactAlign 跨具身触觉对齐方法,不到 5 分钟人类数据即可迁移到机器人,支持零样本转移
FRAPPE 通过未来表示对齐增强 VLA 模型世界感知,在 RoboTwin 和真实任务上超越 SOTA
Legato 训练时连续性方法解决 action chunking 边界不连续,任务完成时间和平滑度均提升约 10%
StarWM 星际争霸 II 首个世界模型,Simulate-Refine 决策循环在 Hard~VeryHard AI 上胜率提升 15-30%

📊 基准、数据集与工具

论文 一句话摘要
MAEB: Massive Audio Embedding Benchmark 30 个任务 100+ 语言的音频嵌入评估,无单一模型全面占优
UniT: Unified Multimodal CoT Test-time Scaling 统一模型多轮推理/验证/改进,短推理轨迹可泛化到长推理链
Panini: Continual Learning via Structured Memory 用 QA 网络替代原始文档的语义记忆,答案上下文 token 减少 2-30×
AutoWebWorld 用 FSM 合成可验证 Web 环境,$0.04/条轨迹,WebVoyager 上 SOTA
WebWorld 首个开放 Web 模拟器,1M+ 交互训练,Qwen3-14B 在 WebArena 提升 9.2%,超 GPT-5
Discovering MARL Algorithms with LLMs 用 AlphaEvolve 自动发现博弈论学习算法 VAD-CFR 和 SHOR-PSRO
Data Darwinism 提出数据-模型协同进化十级分类法,900B token 科学语料库

🏥 领域应用

论文 一句话摘要
ClinAlign 7,034 例医生验证偏好 + 119 条临床原则,30B/3B 激活模型在 HealthBench-Hard 超越 o3
CellMaster LLM 驱动的零样本单细胞注释 Agent,在稀有细胞亚型上比基线提升 22.1%
OPBench 首个阿片类药物危机图学习基准,五数据集三应用领域
SARAH: Spatially Aware Conversational Humans 实时空间感知对话动作生成,VR 部署 300+ FPS

🔬 其他有趣工作

论文 一句话摘要
Qute: Quantum-Native Database 将 SQL 编译为量子电路的混合量子数据库,在真实量子处理器上验证
ENSO Sonification with Gamelan 用爪哇甘美兰音阶将厄尔尼诺数据声音化,保留了关键动力学特征
Vision Wormhole 利用 VLM 视觉接口实现异构多 Agent 无文本潜空间通信
Causal-JEPA 对象级掩码实现潜在干预的世界模型,反事实推理提升约 20%

本周趋势洞察

研究方向分布

热门领域信号

  1. Agent 安全成为一等公民:本周有 6+ 篇论文从不同角度审视 Agent 安全(轨迹审计、隐私泄露、prefill 攻击、视觉注入),表明社区已从"能力优先"转向"安全同步"。
  2. 推理效率的系统性优化:从 token 级(SAGE 停止时机)到 attention 级(SpargeAttention2)到 patch 级(DDiT),再到训练级(STAPO/Magma),形成完整的效率优化栈。
  3. World Model 爆发:CUWM(桌面)、StarWM(游戏)、DreamZero(机器人)、WebWorld(Web)——世界模型正在向所有交互式 Agent 渗透。
  4. 开源基础模型持续追赶:GLM-5、GUI-Owl-1.5、RynnBrain、Arcee Trinity 等代表开源社区在各垂域的持续突破。
  5. Diffusion Language Model 崛起:LaViDa-R1、McDiffuSE 等表明 dLLM 正在走向实用化,尤其在推理和多任务统一方面。

同日其他来源

其他日期