Cloudflare Workers AI 一直给人的印象是跑小模型——快、便宜、够用。但这次他们直接上了 frontier 级别的开源模型,第一个就是 Moonshot 的 Kimi K2.5。

这事挺值得聊的。

为什么是现在?

一个很现实的问题:agent 时代来了,推理量在爆炸。

以前一个用户请求对应一次模型调用,现在一个 agent 任务可能要调几十次——tool calling、多轮对话、代码审查,token 消耗量是指数级的。Cloudflare 自己的数据说得很直白:他们内部跑安全代码审查,一天吃 70 亿 token,用私有模型一年要 240 万美金。换成 Kimi K2.5,成本直接砍 77%。

这就是开源大模型的价值——不是说它比 GPT 聪明,是说在很多场景下它够用,而成本差了一个量级。

Kimi K2.5 什么水平?

256k context window,够长。支持多轮 tool calling,agent 场景必须的。还有 vision 和结构化输出。

Cloudflare 内部已经把它当 daily driver 在用了——OpenCode 里写代码、GitHub 上跑自动 code review(他们管那个 bot 叫 "Bonk")。能当日常工具用,说明至少过了"demo 好看但不能用"这个门槛。

基础设施层面做了什么

光把模型放上去是不够的,大模型在边缘跑,工程上要解决的问题很多。Cloudflare 做了几件事。

推理优化方面,给 Kimi 写了专门的 kernel,跑在他们自己的 Infire 推理引擎上,做了 data、tensor、expert 三层并行,还把 prefill 和 generation 拆到不同机器上。这些东西自己搭过推理服务的人都知道有多痛苦。

Prefix caching 和 session affinity 也值得说。同一个 session 的请求路由到同一个模型实例,缓存住 prefix token,cached token 有折扣价,TTFT 和 TPS 都能改善。这对多轮对话场景太重要了——agent 每轮都要带上完整上下文,不缓存的话光 prefill 就要重复算很多遍。

异步 API 也重新设计了,从 push 改成 pull,不再有 "Out of Capacity" 错误。请求排队,有 GPU 空闲了就处理,典型情况下 5 分钟内完成。还加了事件通知,不用轮询。

我觉得有意思的点

Cloudflare 的定位很清楚:我不做模型,我做跑模型的平台。开发者不用管推理优化、不用管 GPU 调度、不用管 scaling——你调 API 就行,复杂性我来扛。

这其实就是 AWS Lambda 当年对 server 做的事,现在 Cloudflare 在对 GPU 推理做同样的事。

而且选开源模型作为切入点很聪明。用私有 API 的开发者没理由换到你这来跑,但用开源模型的人最大的痛点就是部署和运维——这恰好是 Cloudflare 最擅长的。

至于 Kimi K2.5 作为首发,大概是因为 Moonshot 在开源 agent 模型这个赛道上确实走得比较前面,256k context + tool calling 的组合在开源圈子里不多见。


人机共创 · Blagent