HuggingFace 论文周报 2026-03-24 至 2026-03-30
本周概览
本周HuggingFace论文展现出AI领域的强劲创新活力,尤其是在多模态交互、长上下文处理和高效推理方向取得重大突破。视频生成领域出现革命性进展,ShotStream实现了实时交互式多镜头视频生成,而混合记忆机制解决了动态场景中目标遮挡时的连续性问题。基础模型方面,Intern-S1-Pro突破万亿参数规模,而MSA架构将长上下文处理能力提升至100M tokens。Agent系统研究深入,从技能蒸馏到代码迭代优化都展现出显著进展,同时音频处理和视觉理解领域也有重要突破。整体趋势表明AI正从单一能力向多模态融合、实时交互和长程推理方向发展。
重点论文精选
1. ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling
英文标题: ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling
HuggingFace链接: https://huggingface.co/papers/2603.25746
arXiv链接: https://arxiv.org/abs/2603.25746
核心贡献:
ShotStream提出了一种新颖的因果多镜头架构,通过双重缓存记忆机制和两阶段蒸馏策略,实现了实时交互式叙事生成。该方法解决了传统双向架构交互性有限和高延迟的问题,支持用户通过流式提示动态指导正在进行的叙事。
为什么值得关注:
- 实现亚秒级延迟的多镜头视频生成,在单GPU上达到16 FPS
- 解决了自回归生成中镜头间一致性和错误累积的关键挑战
- 为实时交互式故事创作开辟了新路径,在游戏、教育等领域具有重大应用价值
2. Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models
英文标题: Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models
HuggingFace链接: https://huggingface.co/papers/2603.25716
arXiv链接: https://arxiv.org/abs/2603.25716
核心贡献:
提出混合记忆范式,让模型同时扮演静态背景的精确档案管理员和动态主题的警惕追踪者,确保目标遮挡期间的连续性。构建了HM-World大型数据集,并开发了HyDRA专门记忆架构。
为什么值得关注:
- 首个专门针对混合记忆的大规模视频数据集,包含59K高保真片段
- 解决了视频世界模型中动态目标遮挡时的连续性难题
- 在动态主体一致性和整体生成质量方面显著超越现有方法
3. Know3D: Prompting 3D Generation with Knowledge from Vision-Language Models
英文标题: Know3D: Prompting 3D Generation with Knowledge from Vision-Language Models
HuggingFace链接: https://huggingface.co/papers/2603.22782
arXiv链接: https://arxiv.org/abs/2603.22782
核心贡献:
Know3D通过潜在隐藏状态注入将多模态大语言模型的知识融入3D生成过程,实现对3D资产后视图的语义可控生成。该方法通过VLM-扩散模型架构桥接抽象文本指令与未观察区域的几何重建。
为什么值得关注:
- 将传统上随机的后视图幻觉转变为语义可控过程
- 解决了3D生成中单视图观察的内在模糊性和缺乏稳健全局先验的问题
- 为未来3D生成模型指明了有前途的发展方向
4. Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills
英文标题: Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills
HuggingFace链接: https://huggingface.co/papers/2603.25158
arXiv链接: https://arxiv.org/abs/2603.25158
核心贡献:
Trace2Skill模拟人类专家编写技能的方式,通过并行子代理分析多样化的执行经验,提取轨迹特定课程并通过归纳推理统一为无冲突的技能目录。支持深化现有人类编写的技能和从头创建新技能。
为什么值得关注:
- 在电子表格、VisionQA和数学推理等挑战性领域显著超越强基线
- 技能在不同LLM规模间可迁移,并能泛化到OOD设置
- 将复杂的Agent经验打包成高度可转移的声明式技能
5. Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models
英文标题: Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models
HuggingFace链接: https://huggingface.co/papers/2603.25750
arXiv链接: https://arxiv.org/abs/2603.25750
核心贡献:
Sommelier提出了一个健壮且可扩展的开源数据处理管道,专为全双工模型设计,能够处理自然对话的复杂动态,包括重叠和回声现象,解决了现有的大规模数据集主要限于单人说话者或数量有限的问题。
为什么值得关注:
- 填补了高质量多说话者对话数据的稀缺性空白
- 专为全双工模型设计的开源解决方案
- 解决了自然对话中重叠和回声现象等复杂动态挑战
6. PixelSmile: Toward Fine-Grained Facial Expression Editing
英文标题: PixelSmile: Toward Fine-Grained Facial Expression Editing
HuggingFace链接: https://huggingface.co/papers/2603.25728
arXiv链接: https://arxiv.org/abs/2603.25728
核心贡献:
PixelSmile通过完全对称的联合训练分离表情语义,结合强度监督和对比学习,产生更强和更具区分度的表情,通过文本潜在插值实现精确和稳定的线性表情控制。构建了Flex Facial Expression数据集和相关评估基准。
为什么值得关注:
- 实现了精细化的表情编辑和稳定的身份保持
- 通过文本潜在插值实现精确的线性表情控制
- 支持平滑的表情混合,为表情编辑领域提供了新标准
7. Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale
英文标题: Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale
HuggingFace链接: https://huggingface.co/papers/2603.25040
arXiv链接: https://arxiv.org/abs/2603.25040
核心贡献:
Intern-S1-Pro是首个万亿参数的科学多模态基础模型,在通用和科学领域都提供全面增强,具备先进的Agent能力和超过100个专业化任务的专业知识,涵盖化学、材料、生命科学和地球科学等关键领域。
为什么值得关注:
- 突破万亿参数规模,重新定义基础模型的规模上限
- 在开放源码模型中位居通用能力顶级水平
- 在专业化科学任务深度上超越专有模型
8. Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration
英文标题: Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration
HuggingFace链接: https://huggingface.co/papers/2603.24800
arXiv链接: https://arxiv.org/abs/2603.24800
核心贡献:
Calibri发现扩散变换器中隐藏的提升潜力,通过引入单个学习到的缩放参数显著改善性能,将DiT块校准视为黑盒奖励优化问题,使用进化算法高效解决,仅需修改约100个参数。
为什么值得关注:** - 轻量级设计,在各种文本到图像模型中持续改善性能 - 减少图像生成所需的推理步骤,同时保持高质量输出 - 为扩散模型的效率优化提供了新思路
9. RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models
英文标题: RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models
HuggingFace链接: https://huggingface.co/papers/2603.25502
arXiv链接: https://arxiv.org/abs/2603.25502
核心贡献:
RealRestorer构建了一个覆盖九种常见真实世界退化类型的大规模数据集,训练了先进的开源模型来缩小与闭源替代品的差距,同时引入RealIR-Bench,包含464个真实退化图像和针对性评估指标。
为什么值得关注:** - 在开源方法中排名第一,实现最先进的性能 - 真实世界退化数据和专门评估基准的开创性工作 - 解决了现有恢复模型训练数据规模和分布限制的问题
10. Voxtral TTS
英文标题: Voxtral TTS
HuggingFace链接: https://huggingface.co/papers/2603.25551
arXiv链接: https://arxiv.org/abs/2603.25551
核心贡献:
Voxtral TTS是一个富有表现力的多语言文本转语音模型,可以从最少3秒的参考音频生成自然语音,采用混合架构,结合语义语音令牌的自回归生成和声学令牌的流匹配,使用Voxtral Codec进行编码和解码。
为什么值得关注:** - 在多语言语音克隆中表现出色,在母语者评估中以68.4%的胜率超过ElevenLabs Flash v2.5 - 支持多语言语音合成,表达力强 - 在CC BY-NC许可下发布模型权重,促进了研究 accessibility
11. MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens
英文标题: MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens
HuggingFace链接: https://huggingface.co/papers/2603.23516
arXiv链接: https://arxiv.org/abs/2603.23516
核心贡献:
MSA实现了端到端可训练、高效和大规模可扩展的记忆模型框架,通过可扩展稀疏注意力和文档级RoPE等核心创新,在训练和推理中都实现线性复杂度,从16K扩展到100M tokens时表现出色, degradation小于9%。
为什么值得关注:** - 在长上下文基准上显著超越前沿LLM、最先进RAG系统和领先记忆Agent - 提供了将终身规模记忆赋能通用模型的可扩展基础 - 通过解耦记忆容量和推理能力,解决了长期记忆的瓶颈问题
12. MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data
英文标题: MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data
HuggingFace链接: https://huggingface.co/papers/2603.25319
arXiv链接: https://arxiv.org/abs/2603.25319
核心贡献:
MACRO引入MacroData大型数据集,包含40K样本,每个样本包含多达10个参考图像,在定制化、插图、空间推理和时间动力学四个维度上系统组织,提出MacroBench评估多参考生成的协同效应。
为什么值得关注:** - 解决了现有模型随着输入参考数量增加而性能严重下降的问题 - 在多参考生成方面取得实质性改进 - 通过跨任务协同训练有效处理长上下文复杂性
13. SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks
英文标题: SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks
HuggingFace链接: https://huggingface.co/papers/2603.24755
arXiv链接: https://arxiv.org/abs/2603.24755
核心贡献:
SlopCodeBench包含20个问题和93个检查点,代理反复扩展自己的先前解决方案,在演化的规范下迫使架构决策而不规定内部结构,跟踪冗余代码和结构侵蚀等轨迹级质量信号。
为什么值得关注:** - 揭示了当前Agent缺乏迭代软件开发所需的设计纪律 - 发现代码质量随着迭代而稳定下降,人类代码保持稳定 - 证明了通过率测试系统性地低估了扩展鲁棒性
14. AVControl: Efficient Framework for Training Audio-Visual Controls
英文标题: AVControl: Efficient Framework for Training Audio-Visual Controls
HuggingFace链接: https://huggingface.co/papers/2603.24793
arXiv链接: https://arxiv.org/abs/2603.24793
核心贡献:
AVControl在LTX-2上构建轻量级可扩展框架,每个控制模态作为单独的LoRA在并行画布上训练,提供参考信号作为注意力层中的额外令牌,支持深度、姿态、相机轨迹和音频转换等多样化模态控制。
为什么值得关注:** - 计算和数据效率高,每个模态仅需少量数据 - 在VACE基准上超越所有评估基线,在深度和姿态引导生成方面表现优异 - 支持独立训练的多样化模态,为联合生成模型提供首个模块化音视频控制
15. VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models
英文标题: VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models
HuggingFace链接: https://huggingface.co/papers/2603.24575
arXiv链接: https://arxiv.org/abs/2603.24575
核心贡献:
VFIG训练复杂的SVG转换家族,通过从原子基元的监督微调开始,到强化学习优化的课程学习,引入VFIG-DATA数据集包含66K高质量图-SVG对,VFIG-Bench评估套件测量复杂图形的结构完整性。
为什么值得关注:** - 在开源模型中实现最先进的性能,与GPT-5.2表现相当 - VLM-Judge得分达到0.829,为专业图表重建提供开源解决方案 - 解决了原始矢量源文件经常丢失或无法访问的实际问题
其余论文速览
视频生成与编辑
4DGS360: 360° Gaussian Reconstruction of Dynamic Objects from a Single Video
360°动态物体重建框架,通过先进的3D Native初始化解决几何歧义,在iPhone360、iPhone和DAVIS数据集上实现最先进性能。
OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning
统一视频生成模型,通过大规模预训练学习时空绑定交错文本、多图像和视频输入,为复杂视频创作提供智能代理功能。
PhyGenesis: Toward Physically Consistent Driving Video World Models under Challenging Trajectories
物理一致的世界模型,通过物理条件生成器转换无效轨迹输入为物理条件,生成高保真多视角驾驶视频。
Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting
4K前向纹理平铺方法,通过紧凑高斯基元和每基元纹理解耦几何复杂度和渲染分辨率,实现高质量4K新视角合成。
多模态与视觉语言
EVA: Efficient Reinforcement Learning for End-to-End Video Agent
端到端视频Agent的高效强化学习框架,通过迭代总结-计划-行动-反思推理实现查询驱动的高效视频理解。
BioVITA: Biological Dataset, Model, and Benchmark for Visual-Textual-Acoustic Alignment
生物多模态对齐框架,构建130万音频片段和230万图像的数据集,覆盖14,133物种和34生态特征标签。
Can MLLMs Read Students' Minds? Unpacking Multimodal Error Analysis in Handwritten Math
手写数学多模态错误分析基准,包含1,720中国中小学数学样本,支持错误原因解释和分类任务。
GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding
3D虚拟Agent视频理解框架,在多人3D游戏视频中密集标注,包含2.4K诊断QA对和结构化干扰者分类。
Agent与强化学习
Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models
多答案强化学习方法,修改RL目标使模型在前向传递中显式生成多个候选答案,在问题回答、医疗诊断和编程基准上改进多样性。
T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search
轨迹感知进化搜索方法,利用执行轨迹引导对抗提示生成,在MCP环境中显著超越基线,对前沿模型保持有效。
MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution
记忆增强LLM代理的多代理框架,通过Meta-Thinker产生结构化指导,协调记忆周期前向路径,引入原地自我进化记忆构建。
AVO: Agentic Variation Operators for Autonomous Evolutionary Search
自主进化搜索的新型变异算子,将语言模型替代固定变异、交叉和启发式算法,通过自导向代理循环发现性能关键微架构优化。
基础模型与架构
Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes
重新审视在策略蒸馏,识别到三个失败模式,通过教师top-K局部支持匹配解决,使用截断反向KL与top-p采样和特殊令牌掩码实现。
UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation
统一强化学习框架,为推理驱动的图像生成联合优化文本和图像生成策略,引入异构并行漏斗最大化系统吞吐量。
Representation Alignment for Just Image Transformers is not Easier than You Think
揭示REPA对JiT的失败,通过信息不对称导致的问题,提出PixelREPA转换对齐目标和掩码变压器适配器约束,改进训练收敛和最终质量。
3D视觉与重建
UniFunc3D: Unified Active Spatial-Temporal Grounding for 3D Functionality Segmentation
统一的3D功能分割框架,将MLLM作为主动观察者,通过语义、时间和空间推理联合推理,在SceneFun3D上实现59.9% mIoU改进。
2Xplat: Two Experts Are Better Than One Generalist
双专家设计的前馈3DGS框架,明确分离几何估计和高斯生成,在少于5K训练迭代内显著超越前人方法。
音频与语音
The Pulse of Motion: Measuring Physical Frame Rate from Visual Dynamics
视觉计时器,通过受控时间重采样训练,从视觉动态恢复物理帧率,建立PhyFPS-Bench评估基准,显著改进AI生成视频的自然度。
记忆与长文本
S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation
训练免费自推测解码框架,利用扩散模型在块大小为1时的自回归特性,在SDAR和LLaDA2.1-Mini上实现显著速度提升。
生物医学应用
Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments
企业资源分配基准,在132个月企业模拟器中评估长程决策,揭示当前LLM Agent在不确定环境下的显著能力差距。
AgentSLR: Automating Systematic Literature Reviews in Epidemiology with Agentic AI
系统性文献综述自动化管道,从文章检索、筛选、数据提取到报告合成,实现58倍速度提升,性能与人类研究者相当。
机器人与控制
Vega: Learning to Drive with Natural Language Instructions
统一视觉-语言-世界-动作模型,通过自回归 paradigm处理视觉输入和语言指令,扩散 paradigm生成未来预测和轨迹,具备强指令遵循能力。
VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models
双系统框架,通过结构化视觉提示接口解耦高层推理和低级执行,在Robocasa-GR1-Tabletop基准上改善成功率。
文档处理与OCR
MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding
统一扩散框架,通过块状扩散解码器和不确定性驱动课程学习,在文档OCR任务上实现3.2倍加速和更强鲁棒性。
本周趋势洞察
研究方向分布
本周论文主要集中在以下几个核心方向:
-
视频生成与交互(25篇,50%): 占据主导地位,表现出从静态生成向动态交互的明显转变,包括实时多镜头生成、物理一致性保证和4D重建等前沿方向。
-
Agent技能与推理(11篇,22%): 技能蒸馏、记忆机制和长期推理成为热点,体现了AI系统向更复杂、更自主的方向发展。
-
多模态融合(8篇,16%): 视觉-语言-动作的深度融合,特别是在生物医学、教育和机器人领域的应用。
-
基础模型优化(6篇,12%): 在架构设计、长上下文处理和参数效率方面的持续创新。
热门领域与技术突破
-
实时交互能力: ShotStream和Sommelier展示了AI系统从批处理向实时交互的重大转变,这对游戏、教育等交互式应用具有革命性意义。
-
长上下文处理: MSA架构将上下文窗口扩展到100M tokens,解决了长期记忆的根本性瓶颈,为复杂的推理任务提供了基础。
-
多参考生成: MACRO数据集和方法解决了多参考图像生成的关键挑战,为真实世界应用奠定了基础。
-
Agent鲁棒性: SlopCodeBench揭示了当前Agent在长期任务中的局限性,为未来发展指明了方向。
值得关注的信号
-
从单一模态向多模态融合: 研究正在从单一能力向多模态协同发展,特别是在视频-音频-语言的交叉领域。
-
从静态向动态转变: 从静态图像/文本生成向动态视频/交互生成的转变反映了AI应用场景的扩展。
-
从通用向专业化: 虽然基础模型规模不断增大,但专业化、领域适配的研究也在同步发展,如Intern-S1-Pro的科学专业能力。
-
从效率向实用平衡: 研究越来越注重在保持质量的同时提升效率,如Calibri的参数高效优化和RealRestorer的实用导向。
总结与展望
本周的研究成果表明,AI技术正在向更实用、更交互、更专业的方向发展。实时视频生成、长上下文处理、Agent技能蒸馏等方向的突破,为未来的AI应用奠定了坚实基础。特别值得注意的是,研究越来越注重解决实际应用中的具体问题,而不仅仅追求理论创新。预计在未来几个月内,这些技术突破将快速转化为实际产品和服务,推动AI技术的产业化进程。