AI 博客精选 — 2026年2月22日

今日概览

过去三天 AI 博客圈最重磅的消息是 ggml.ai（llama.cpp）正式加入 Hugging Face，这对本地 AI 生态意义深远。与此同时，推理速度的军备竞赛仍在继续——从 GPT-5.3 Codex Spark 的 1200 tok/s 到 Taalas 硬件方案的 17,000 tok/s，速度正在以数量级提升。Google 也悄然发布了 Gemini 3.1 Pro，而 Karpathy 则为 AI 编程 agent 造了个新词："Claws"。

精选文章

🔥 ggml.ai 加入 Hugging Face，本地 AI 迎来新篇章

Simon Willison · 链接

Georgi Gerganov 创建的 ggml.ai 和 llama.cpp 项目正式并入 Hugging Face。llama.cpp 几乎凭一己之力开启了本地大模型运行的时代，这次合并意味着本地 AI 推理将获得更强的工程支持和长期维护。值得关注的是这对 GGUF 格式生态和社区贡献模式的影响。

⚡ Taalas：用定制硬件跑出 17,000 tokens/s

Simon Willison · 链接

加拿大硬件创业公司 Taalas 发布首款产品，用定制硬件实现 Llama 3.1 8B 的 17,000 tokens/s 推理速度。这比 GPU 方案快一个数量级，预示着 AI 推理正在走向专用芯片时代。对于需要超低延迟的应用场景（实时对话、游戏 NPC），这类方案可能是未来方向。

🤖 Karpathy 谈 "Claws"——AI 编程 Agent 新范式

Simon Willison · 链接

Andrej Karpathy 发推讨论他买 Mac Mini 来折腾本地 AI 的体验，并为当前的 AI 编程 agent（如 Claude Code）造了个新术语 "Claws"。这篇值得读不仅因为 Karpathy 的洞察力，更因为它反映了顶级 AI 研究者自己是如何在日常中使用这些工具的。

📊 Gemini 3.1 Pro 发布

Simon Willison · 链接

Google 发布 Gemini 3.1 系列的首个模型，定价与 Gemini 3 Pro 持平（输入 $2/M tokens，输出 $12/M tokens）。在模型迭代速度越来越快的今天，Google 正试图用性价比和长上下文来保持竞争力。

🔧 Prompt Caching 如何让 Agent 产品可行

Simon Willison 引用 Thariq Shihipar · 链接

Anthropic 工程师解释了 prompt caching 对 Claude Code 等长时间运行的 agentic 产品的关键作用——通过复用之前轮次的计算，大幅降低延迟和成本。这揭示了当前 AI coding agent 背后的核心工程挑战。

🎯 Ed Zitron：The Hater's Guide to Anthropic

Ed Zitron · 链接

Ed Zitron 以一贯的犀利风格对 Anthropic 进行了深度批判分析。无论你是否认同他的观点，这类来自行业外部的质疑声音对于避免 AI 领域的"回音室效应"是有价值的。

😵 "平行 Agent 精神错乱"——多 Agent 开发的真实体验

Simon Willison · 链接

Simon 分享了同时运行多个 AI coding agent 后丢失整个 feature 的经历——代码写在了 /tmp 里。他把这种状态称为"parallel agent psychosis"。这是对 AI 辅助开发真实痛点的诚实记录，值得每个重度使用 AI 编程工具的人警醒。

趋势洞察

推理速度成为新战场：从 OpenAI 的 1200 tok/s 到 Taalas 的 17,000 tok/s，定制硬件正在打破 GPU 推理的速度天花板。速度提升不只是体验改善，更是解锁全新应用场景的关键。
本地 AI 生态整合加速：ggml.ai 加入 Hugging Face 标志着本地推理从个人英雄项目走向机构化支持，GGUF 格式有望成为更稳固的行业标准。
AI Agent 从新奇走向日常痛点：Karpathy 的 "Claws" 命名、Simon 的"平行 Agent 精神错乱"、以及 prompt caching 的工程细节，都说明 AI coding agent 已经过了炒作期，进入了解决真实工程问题的阶段。
批判性声音持续存在：Ed Zitron 对 Anthropic 的深度质疑提醒我们，AI 行业仍需面对商业可持续性和技术承诺之间的差距。

📝 AI 博客精选

AI 博客精选 — 2026年2月22日

今日概览

精选文章

🔥 ggml.ai 加入 Hugging Face，本地 AI 迎来新篇章

⚡ Taalas：用定制硬件跑出 17,000 tokens/s

🤖 Karpathy 谈 "Claws"——AI 编程 Agent 新范式

📊 Gemini 3.1 Pro 发布

🔧 Prompt Caching 如何让 Agent 产品可行

🎯 Ed Zitron：The Hater's Guide to Anthropic

😵 "平行 Agent 精神错乱"——多 Agent 开发的真实体验

趋势洞察

同日其他来源

其他日期