HuggingFace 论文周报

2026年3月3日 - 2026年3月9日

数据来源：HuggingFace Daily Papers (过去7天 Top 137 篇)

📊 本周概览

本周 HuggingFace Daily Papers 呈现出多模态推理与具身智能深度融合的显著趋势。视频生成领域迎来物理一致性突破（PSIVG、DreamWorld、Helios），同时 VLM 架构正在从纯视觉编码器向 LLM-based 视觉编码器演进（Penguin-VL）。Agent 能力评估进入新阶段，从单任务测试转向长时程、多工具协作的综合能力考核（AgentVista、RoboMME、SWE-CI）。此外，RLVR（Reinforcement Learning with Verifiable Rewards）成为训练推理模型的主流范式，多篇论文探索了数据选择、奖励设计和训练效率的优化策略。

🌟 重点论文精选

1. Penguin-VL: 探索 VLM 效率极限

标题：Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

论文	一句话摘要
KARL	企业搜索 Agent 的 RL 训练系统，在 KARLBench 六种搜索场景上 Pareto 优于 Claude 4.6 和 GPT 5.2
DARE	将数据分布信息融入函数表示的 R 包检索模型，NDCG@10 达 93.47%
CoVe	约束引导验证的交互式工具使用 Agent 训练框架，4B 模型超越 17x 大的基线
Tool-R0	从零数据训练工具调用 Agent 的 self-play RL 框架，相对基础模型提升 92.5%
MemSifter	将记忆检索卸载到小规模代理模型，通过任务结果导向的 RL 优化
Memex(RL)	索引化经验记忆机制，通过 RL 学习何时总结、归档和检索
GroupGPT	多用户群聊助手框架，token 使用减少 3x，平均评分 4.72/5.0
Mozi	药物发现 LLM Agent 的双层治理架构，控制平面+工作流平面

论文	一句话摘要
RoboPocket	用手机实现无机器人即时策略迭代，通过 AR 可视化策略预测轨迹
UltraDexGrasp	双手机器人通用灵巧抓取框架，2000 万帧合成数据实现 81.2% 真实世界成功率
π-StepNFT	Flow-based VLA 的在线 RL 框架，单次前向传播无需辅助价值网络
CoWVLA	链式世界 VLA，将世界模型时序推理与解耦潜在运动表示统一
RealWonder	首个实时动作条件视频生成系统，13.2 FPS 支持力、机器人动作和相机控制
Lightweight Visual Reasoning	闭环 LLM-VLM 反馈模块，3% 额外参数提升机器人社交感知
MIBURI	首个在线因果框架生成表达性全身手势和面部表情
ArtHOI	首个从视频先验进行铰接人-物交互合成的零样本框架

论文	一句话摘要
DreamWorld	统一世界建模视频生成框架，VBench 上比 Wan2.1 提升 2.26 分
DC-DiT	动态分块扩散 Transformer，4x/16x 压缩下持续改善 FID 和 IS
InfinityStory	无限视频生成框架，VBench 最高背景一致性(88.94)和主体一致性(82.11)
CubeComposer	4K 360°视频的时空自回归扩散模型
Kiwi-Edit	指令+参考引导的多功能视频编辑框架
NOVA	无配对视频编辑的稀疏控制+密集合成框架
Proact-VL	实时交互式 AI 伴侣的主动 VideoLLM 框架
RIVER	实时视频交互基准，包含回顾记忆、实时感知和主动预测任务

论文	一句话摘要
HiFi-Inpaint	高保真参考引导 inpainting，生成人物-产品图像
BBQ	直接以数值边界框和 RGB 三元组为条件的 T2I 模型
RAISE	需求自适应自改进进化框架，GenEval 达 0.94 整体分数
ADE-CoT	自适应 test-time scaling 图像编辑框架，2x 加速
SeeThrough3D	遮挡感知 3D 布局条件图像生成
CFG-Ctrl	将 CFG 重解释为控制理论，引入滑模控制 CFG
OmniLottie	多模态指令生成高质量矢量动画框架

论文	一句话摘要
PRISM	PRM 引导的 DeepThink 推理，gpt-oss-20b 在 AIME25 达 90%
SLATE	截断步骤采样+LLM-as-judge 奖励的检索增强推理
InSight	加权互信息数据选择，Planning & Math 基准 +1.41，加速 ~2.2x
ReGFT	参考引导微调，利用人类参考解在困难问题上合成正轨迹
T³RL	Test-time RL 的工具验证，通过代码执行验证提升伪标签可靠性
LFPO	无似然策略优化，专为掩码扩散模型设计
BeamPERL	参数高效 RLVR 训练紧凑 LLM 进行物理推理
SpeciaRL	特异性感知 RL，在开放世界细粒度分类上平衡正确性和特异性

论文	一句话摘要
SWE-CI	首个基于 CI 循环的仓库级基准，100 个任务平均跨越 233 天 71 次提交
Qwen3-Coder-Next	80B 参数、3B 激活的代码 Agent 专用模型
BeyondSWE	超越单仓库 bug 修复的代码 Agent 基准，500 实例四种设置
SWE-rebench V2	语言无关的 32K+ SWE 任务数据集，覆盖 20 种语言
AgentConductor	RL 优化的多 Agent 系统，Pass@1 比最强基线高 14.6%
ParEVO	不规则数据高性能并行算法合成框架，平均 106x 加速
Code2Math	代码 Agent 自主演化数学问题为更复杂变体
Agentic Code Reasoning	半形式化推理方法，无需执行即可验证补丁等价性

论文	一句话摘要
MASQuant	多模态 LLM 的模态感知平滑量化
SageBwd	可训练 INT8 注意力，首次在预训练中匹配全精度
AgilePruner	视觉 token 自适应剪枝，erank 分析揭示多样性保留与幻觉的关系
AOT	锚点最优传输的 token 减少，训练无关的视频 LLM 高效方法
DynaMoE	动态 token 级专家激活+层级自适应容量分配
LocAtViT	局部注意力视觉 Transformer，ADE20K 上 ViT Tiny/Base 提升 6%/4%

论文	一句话摘要
When Does RL Help Medical VLMs	解耦视觉、SFT 和 RL 对医学 VLM 的贡献
DCT	分布条件传输，支持单细胞基因组学、血液学等四种生物应用
SGDC	结构引导动态卷积医学图像分割，HD95 降低 2.05
Cryo-Bench	冰冻圈应用 GFM 基准，涵盖冰川、海冰、冰裂缝前沿

论文	一句话摘要
RubricBench	评估 rubric-based 评估范式的基准，1147 对成对比较
QEDBench	量化大学级数学证明评估的对齐差距
MMR-Life	多模态多图像推理基准，7 种推理类型 2646 问题
T2S-Bench	首个文本到结构推理基准，1.8K 样本 6 科学领域 32 结构类型
Interactive Benchmarks	交互式基准框架，包含交互式证明和交互式游戏
SteerEval	LLM 可控性分层评估基准，涵盖语言特征、情感和人格
MUSE	多模态统一安全评估平台，引入跨轮次模态切换攻击

论文	一句话摘要
CMI-RewardBench	组合多模态指令的音乐奖励模型基准
Whisper-RIR-Mega	配对清洁-混响语音 ASR 鲁棒性基准
Using Songs to Improve Kazakh ASR	用歌曲数据改进低资源语言 ASR

论文	一句话摘要
SciDER	数据驱动的端到端科研 Agent 系统
APRES	基于 LLM 的论文修订与评估系统，引用预测 MAE 降低 19.6%
Legal RAG Bench	法律 RAG 端到端基准，4876 段落 100 专家问题
MicroVerse	微观世界视频生成，首个微生物尺度仿真基准
Fast Matrix Multiplication	发现 4×4×10 仅需 115 次乘法的新方案
Spectral Condition for μP	宽度-深度联合缩放下的 μP 谱条件

论文	一句话摘要
MOSAIC	多步工具使用的安全 Agent 后训练框架，有害行为减少 50%
Conditioned Activation Transport	T2I 安全引导的条件激活传输，无需训练的探测或消融
ProtegoFed	首个无后门的联邦指令调优框架，检测 92-100% 中毒样本
CUPID	解决"捷径遗忘"问题的机器遗忘框架
HateMirage	虚假仇恨言论数据集，4530 评论三维标注

论文	一句话摘要
PixARMesh	自回归单视图室内场景网格重建
EmbodiedSplat	在线前馈 3DGS 开放词汇场景理解
WorldStereo	通过 3D 几何记忆连接相机引导视频生成和场景重建
Track4World	世界坐标系下所有像素的前馈密集 3D 跟踪
VGGT-Det	无传感器几何的多视图室内 3D 目标检测
Utonia	首个跨领域点云自监督编码器，涵盖遥感、LiDAR、RGB-D、CAD、视频提升
ArtLLM	3D LLM 生成铰接资产，自回归预测部件和关节
SVG2	63.6 万视频 6.7M 关系的大规模时空场景图数据集

论文	一句话摘要
LaSER	将显式推理内化到密集检索器的潜在空间
Half-Truths Break Similarity-Based Retrieval	CLIP 在"半真半假"描述上的脆弱性分析
CC-VQA	冲突-关联感知的知识冲突缓解方法
V-SONAR	从文本嵌入空间扩展的视觉-语言嵌入空间
R-TAP	递归思考-回答过程，置信度引导的迭代推理
SEKA/AdaSEKA	谱编辑键放大，无需训练的注意力引导方法
Reasoning Core	可扩展符号推理数据生成套件
Words & Weights	联合优化指令和权重的多轮交互框架

论文	一句话摘要
Transformers converge to invariant algorithmic cores	独立训练的 Transformer 收敛到相同的算法核心
Spilled Energy in LLMs	将 softmax 分类器重解释为能量模型，检测幻觉
ProbCOPA	210 个人工标注的概率推理数据集
CharacterFlywheel	Instagram/WhatsApp/Messenger 社交聊天的迭代改进飞轮
FireRed-OCR	通用 VLM 到专业 OCR 专家的系统框架
PhotoBench	首个真实个人相册基准，从视觉匹配到意图驱动推理
OpenAutoNLU	开源 NLU AutoML 库，数据感知训练机制选择
Social Media User Simulation	LLM 模拟社交媒体用户的操作有效性评估
Transform-Invariant Ray Path Sampling	生成流网络加速无线电传播建模，GPU 上 10x 加速
GraphGlue	多领域图预训练的黎曼几何图粘合框架
Monocular Mesh Recovery of Goats	单目母山羊网格恢复与体尺测量

🤗 HuggingFace 论文周报

HuggingFace 论文周报

2026年3月3日 - 2026年3月9日

📊 本周概览

🌟 重点论文精选

1. Penguin-VL: 探索 VLM 效率极限

2. PSIVG: 物理模拟器在线视频生成

3. Helios: 真正的实时长视频生成

4. RoboMME: 机器人记忆能力基准测试

5. V_1: 统一生成与自验证

6. SkillNet: AI 技能的创建、评估与连接

7. FlashPrefill: 超快长上下文预填充

8. OPSDC: 推理压缩的自蒸馏方法

9. HACRL: 异构 Agent 协作强化学习

10. Timer-S1: 十亿级时间序列基础模型

11. Beyond Multimodal Pretraining: Transfusion 框架探索

12. CHIMERA: 紧凑合成数据实现泛化推理

13. AgentVista: 超挑战真实视觉场景多模态 Agent 评估

14. Reasoning Models Struggle to Control CoT

15. MOOSE-Star: 科学发现的可训练框架

📚 其余论文速览

🔧 Agent 与工具学习

🤖 机器人与具身智能

🎬 视频生成与理解

🖼️ 图像生成与编辑

🧠 推理与 RL

💻 代码与软件工程

🎯 效率优化

🏥 医学与生物

📊 评估与基准

🗣️ 语音与音频

🧪 科学与领域应用

🔐 安全与对齐

🔬 3D 与场景理解

📝 NLP 与表示学习

🧩 其他

📈 本周趋势洞察

🔥 热门研究方向

🚀 值得关注的信号

⚠️ 挑战与瓶颈

同日其他来源

其他日期