AI 博客精选 — 2026年2月22日
今日概览
过去三天 AI 博客圈最重磅的消息是 ggml.ai(llama.cpp)正式加入 Hugging Face,这对本地 AI 生态意义深远。与此同时,推理速度的军备竞赛仍在继续——从 GPT-5.3 Codex Spark 的 1200 tok/s 到 Taalas 硬件方案的 17,000 tok/s,速度正在以数量级提升。Google 也悄然发布了 Gemini 3.1 Pro,而 Karpathy 则为 AI 编程 agent 造了个新词:"Claws"。
精选文章
🔥 ggml.ai 加入 Hugging Face,本地 AI 迎来新篇章
Simon Willison · 链接
Georgi Gerganov 创建的 ggml.ai 和 llama.cpp 项目正式并入 Hugging Face。llama.cpp 几乎凭一己之力开启了本地大模型运行的时代,这次合并意味着本地 AI 推理将获得更强的工程支持和长期维护。值得关注的是这对 GGUF 格式生态和社区贡献模式的影响。
⚡ Taalas:用定制硬件跑出 17,000 tokens/s
Simon Willison · 链接
加拿大硬件创业公司 Taalas 发布首款产品,用定制硬件实现 Llama 3.1 8B 的 17,000 tokens/s 推理速度。这比 GPU 方案快一个数量级,预示着 AI 推理正在走向专用芯片时代。对于需要超低延迟的应用场景(实时对话、游戏 NPC),这类方案可能是未来方向。
🤖 Karpathy 谈 "Claws"——AI 编程 Agent 新范式
Simon Willison · 链接
Andrej Karpathy 发推讨论他买 Mac Mini 来折腾本地 AI 的体验,并为当前的 AI 编程 agent(如 Claude Code)造了个新术语 "Claws"。这篇值得读不仅因为 Karpathy 的洞察力,更因为它反映了顶级 AI 研究者自己是如何在日常中使用这些工具的。
📊 Gemini 3.1 Pro 发布
Simon Willison · 链接
Google 发布 Gemini 3.1 系列的首个模型,定价与 Gemini 3 Pro 持平(输入 $2/M tokens,输出 $12/M tokens)。在模型迭代速度越来越快的今天,Google 正试图用性价比和长上下文来保持竞争力。
🔧 Prompt Caching 如何让 Agent 产品可行
Simon Willison 引用 Thariq Shihipar · 链接
Anthropic 工程师解释了 prompt caching 对 Claude Code 等长时间运行的 agentic 产品的关键作用——通过复用之前轮次的计算,大幅降低延迟和成本。这揭示了当前 AI coding agent 背后的核心工程挑战。
🎯 Ed Zitron:The Hater's Guide to Anthropic
Ed Zitron · 链接
Ed Zitron 以一贯的犀利风格对 Anthropic 进行了深度批判分析。无论你是否认同他的观点,这类来自行业外部的质疑声音对于避免 AI 领域的"回音室效应"是有价值的。
😵 "平行 Agent 精神错乱"——多 Agent 开发的真实体验
Simon Willison · 链接
Simon 分享了同时运行多个 AI coding agent 后丢失整个 feature 的经历——代码写在了 /tmp 里。他把这种状态称为"parallel agent psychosis"。这是对 AI 辅助开发真实痛点的诚实记录,值得每个重度使用 AI 编程工具的人警醒。
趋势洞察
-
推理速度成为新战场:从 OpenAI 的 1200 tok/s 到 Taalas 的 17,000 tok/s,定制硬件正在打破 GPU 推理的速度天花板。速度提升不只是体验改善,更是解锁全新应用场景的关键。
-
本地 AI 生态整合加速:ggml.ai 加入 Hugging Face 标志着本地推理从个人英雄项目走向机构化支持,GGUF 格式有望成为更稳固的行业标准。
-
AI Agent 从新奇走向日常痛点:Karpathy 的 "Claws" 命名、Simon 的"平行 Agent 精神错乱"、以及 prompt caching 的工程细节,都说明 AI coding agent 已经过了炒作期,进入了解决真实工程问题的阶段。
-
批判性声音持续存在:Ed Zitron 对 Anthropic 的深度质疑提醒我们,AI 行业仍需面对商业可持续性和技术承诺之间的差距。