AI 博客精选 — 2026-02-23
今日概览
过去三天 AI 博客圈最大的新闻是 ggml.ai(llama.cpp)被 Hugging Face 收购,这是本地 AI 推理生态的一次重大整合。同时,AI 推理速度竞赛白热化——从 GPT-5.3 Codex Spark 达到 1200 tok/s 到 Taalas 硬件方案冲到 17,000 tok/s,速度正成为新的战场。Ed Zitron 则从批判视角发布了对 Anthropic 商业模式的深度分析,值得对照阅读。
精选文章
1. ggml.ai 加入 Hugging Face,共建本地 AI 未来
- 作者: Simon Willison
- 链接: simonwillison.net
- 摘要: Georgi Gerganov 创建的 ggml/llama.cpp 是本地 LLM 推理的基石项目,此次加入 Hugging Face 意味着开源推理基础设施获得了更稳定的商业支撑。Simon 认为这对整个 local AI 生态是积极信号。
- 为什么值得读: llama.cpp 影响了几乎所有本地模型部署方案,这次收购的战略意义远超普通并购新闻。
2. The Claude C Compiler:AI 编程的未来启示
- 作者: Simon Willison(引用 Modular 博客)
- 链接: simonwillison.net
- 摘要: Anthropic 的 Nicholas Carlini 构建了一个用 Claude 实现的 C 编译器项目,展示了 LLM 在严格确定性任务上的能力边界。文章深入讨论了 LLM 作为"软件引擎"的可能性和局限。
- 为什么值得读: 编译器是计算机科学中最严谨的软件之一,用 LLM 来实现它本身就是一个极好的 benchmark 实验。
3. Andrej Karpathy 谈 "Claws"
- 作者: Simon Willison(引用 Karpathy 推文)
- 链接: simonwillison.net
- 摘要: Karpathy 买了台 Mac Mini 来折腾本地 AI agent,用"Claws"来比喻当前 AI 工具的交互范式——它们像爪子一样在你的文件系统和环境中抓取操作。他观察到这类硬件在消费端"卖疯了"。
- 为什么值得读: Karpathy 对 AI 产品形态的直觉一直很准,"Claws" 这个隐喻精准描述了当前 agent 工具的本质。
4. Taalas 硬件方案:Llama 3.1 8B 跑到 17,000 tok/s
- 作者: Simon Willison(引用 Taalas 博客)
- 链接: simonwillison.net
- 摘要: 加拿大硬件创业公司 Taalas 发布了专用 AI 推理芯片的首款产品,对 Llama 3.1 8B 的推理速度达到 17,000 tok/s,远超当前 GPU 方案。这代表了"模型专用硬件"路线的最新进展。
- 为什么值得读: 当 token 速度快到一定程度,AI 应用的交互范式会发生质变——从"等待回复"变成"实时对话"。
5. GPT-5.3-Codex-Spark 速度提升 30%,达 1200 tok/s
- 作者: Simon Willison(引用 Thibault Sottiaux)
- 链接: simonwillison.net
- 摘要: OpenAI 将 GPT-5.3-Codex-Spark 的推理速度优化了 30%,现在服务端达到 1200 tok/s。配合 Codex 在代码任务上的专精能力,这使得实时编程辅助的体验更加流畅。
- 为什么值得读: 速度是 coding agent 体验的关键瓶颈,1200 tok/s 意味着几乎无延迟的代码生成。
6. Prompt Caching 如何让 Claude Code 成为可能
- 作者: Simon Willison(引用 Thariq Shihipar)
- 链接: simonwillison.net
- 摘要: Anthropic 的工程师解释了 prompt caching 技术如何使 Claude Code 这样的长时间运行 agent 产品在延迟和成本上变得可行,复用之前轮次的计算结果来大幅降低开销。
- 为什么值得读: 揭示了当前 AI agent 产品背后的关键基础设施优化思路。
7. Premium: The Hater's Guide to Anthropic
- 作者: Ed Zitron
- 链接: wheresyoured.at
- 摘要: Ed Zitron 从批判者的角度深度剖析了 Anthropic 的商业模式、融资历史和"安全叙事"背后的矛盾。文章风格犀利,数据详实,对 Anthropic 的估值合理性和盈利路径提出质疑。
- 为什么值得读: 在一片乐观叙事中,批判性视角是必要的平衡。即使不完全认同,也能帮助更全面地理解 AI 行业格局。
趋势洞察
-
推理速度竞赛进入硬件阶段: 从 OpenAI 的软件优化(1,200 tok/s)到 Taalas 的专用硬件(17,000 tok/s),行业正在从"模型能力"竞争转向"推理效率"竞争。这预示着 2026 年下半年可能出现一批以"速度"为核心卖点的 AI 产品。
-
本地 AI 生态加速整合: ggml.ai 加入 Hugging Face、Mac Mini 热卖、Karpathy 关注本地 agent——本地推理不再是极客玩具,正在走向主流消费市场。
-
Agent 基础设施成熟: Prompt caching、Codex 品牌整合、编译器级别的 LLM 实验——AI agent 正在从"演示项目"变成"生产工具",基础设施层的优化是关键推动力。
-
批判叙事升温: Ed Zitron 对 Anthropic 的深度批判文章代表了一种正在壮大的声音——在估值泡沫化的背景下,市场开始要求 AI 公司证明真实的商业价值。