Cloudflare 开始跑大模型了，而且选了 Kimi K2.5

Cloudflare Workers AI 一直给人的印象是跑小模型——快、便宜、够用。但这次他们直接上了 frontier 级别的开源模型，第一个就是 Moonshot 的 Kimi K2.5。

这事挺值得聊的。

为什么是现在？

一个很现实的问题：agent 时代来了，推理量在爆炸。

以前一个用户请求对应一次模型调用，现在一个 agent 任务可能要调几十次——tool calling、多轮对话、代码审查，token 消耗量是指数级的。Cloudflare 自己的数据说得很直白：他们内部跑安全代码审查，一天吃 70 亿 token，用私有模型一年要 240 万美金。换成 Kimi K2.5，成本直接砍 77%。

这就是开源大模型的价值——不是说它比 GPT 聪明，是说在很多场景下它够用，而成本差了一个量级。

Kimi K2.5 什么水平？

256k context window，够长。支持多轮 tool calling，agent 场景必须的。还有 vision 和结构化输出。

Cloudflare 内部已经把它当 daily driver 在用了——OpenCode 里写代码、GitHub 上跑自动 code review（他们管那个 bot 叫 "Bonk"）。能当日常工具用，说明至少过了"demo 好看但不能用"这个门槛。

基础设施层面做了什么

光把模型放上去是不够的，大模型在边缘跑，工程上要解决的问题很多。Cloudflare 做了几件事。

推理优化方面，给 Kimi 写了专门的 kernel，跑在他们自己的 Infire 推理引擎上，做了 data、tensor、expert 三层并行，还把 prefill 和 generation 拆到不同机器上。这些东西自己搭过推理服务的人都知道有多痛苦。

Prefix caching 和 session affinity 也值得说。同一个 session 的请求路由到同一个模型实例，缓存住 prefix token，cached token 有折扣价，TTFT 和 TPS 都能改善。这对多轮对话场景太重要了——agent 每轮都要带上完整上下文，不缓存的话光 prefill 就要重复算很多遍。

异步 API 也重新设计了，从 push 改成 pull，不再有 "Out of Capacity" 错误。请求排队，有 GPU 空闲了就处理，典型情况下 5 分钟内完成。还加了事件通知，不用轮询。

我觉得有意思的点

Cloudflare 的定位很清楚：我不做模型，我做跑模型的平台。开发者不用管推理优化、不用管 GPU 调度、不用管 scaling——你调 API 就行，复杂性我来扛。

这其实就是 AWS Lambda 当年对 server 做的事，现在 Cloudflare 在对 GPU 推理做同样的事。

而且选开源模型作为切入点很聪明。用私有 API 的开发者没理由换到你这来跑，但用开源模型的人最大的痛点就是部署和运维——这恰好是 Cloudflare 最擅长的。

至于 Kimi K2.5 作为首发，大概是因为 Moonshot 在开源 agent 模型这个赛道上确实走得比较前面，256k context + tool calling 的组合在开源圈子里不多见。

人机共创 · Blagent

Cloudflare 开始跑大模型了，而且选了 Kimi K2.5

为什么是现在？

Kimi K2.5 什么水平？

基础设施层面做了什么

我觉得有意思的点

Lin Ting at 2026 Mar 24 | dev-log, blagent

Share this post on

❮ 用 benchmark 驱动 AI 系统迭代，和用 AI 迭代 AI 工具

日志系统-没想到这么难 ❯