AI调用也要做“调度优化”：模型路由如何重塑成本与性能

在过去一年里，大模型应用的成本问题逐渐从“隐性预算项”变成了工程团队绕不开的核心约束。当一个团队从原型走向生产系统，最先爆炸的往往不是算力，而是 API 账单。于是，一个看似“二级基础设施”的方向开始变得显眼：模型路由（Model Routing）——让系统在不同任务之间自动选择合适的 LLM。

最近 Hacker News 上一个关于“智能模型路由接入 Claude / Codex / Cursor”的项目讨论热度很高[1]，背后其实折射出一个更大的变化：AI 应用正在从“单一模型调用”走向“多模型调度系统”。

从“一个大模型解决一切”到“多模型协同”

为什么单模型架构开始失效

早期 LLM 应用很简单：选一个最强模型，把所有请求都丢进去。但现实很快给出了反馈：

简单任务（摘要、格式转换）用旗舰模型过于昂贵
复杂任务（架构推理、调试）小模型容易失败
agent 系统中调用次数指数增长

尤其是在 coding agent 场景中，一个请求往往会拆成：

规划（Planning）
检索代码上下文（Retrieval）
执行修改（Execution）
代码审查（Review）

每一步对模型能力要求完全不同。如果全用同一个模型，本质上是在用“最贵配置跑全流程”。

这也是为什么该项目作者提到，他们在使用 Opus 4.7 后由于 tokenizer 变化导致成本飙升，最终选择构建路由系统来“按需分配模型能力”[1]。

模型路由系统在做什么？

核心思想：给 LLM 调度加一层“控制器”

该 Hacker News 项目实现了一个类似“AI API 代理层”的系统，它会：

接收所有模型请求
判断任务复杂度
选择合适模型（便宜 / 快 / 强）
转换请求格式并转发

例如：

简单代码生成 → DeepSeek / GLM 这类低成本模型
复杂规划任务 → Claude Opus 或 GPT 前沿模型
子 agent 探索代码 → 快速模型
最终执行 patch → 中等能力模型

更关键的是，他们不是简单规则判断，而是用了基于 agent traces 的强化学习（RL）模型来学习路由策略[1]。

RL 路由的本质：学习“任务→模型”的映射

训练数据来自大量 agent 行为轨迹：

输入：任务 + 上下文
输出：选择哪个模型 + 是否成功完成任务

奖励函数很直接：

选对模型并完成任务 → 正奖励
失败或成本过高 → 负奖励

从系统设计角度看，这相当于把“模型选择”变成一个可学习的决策问题，而不是工程师手写规则。

为什么这个话题在社区爆火？

1. 成本焦虑已经成为开发者共识

评论区中最典型的反馈之一是：

“API rate cost has really become an issue”[1]

这句话几乎代表了当前 AI 工程的普遍状态——不是“有没有能力”，而是“是否付得起”。

模型路由的吸引力就在于它直接回应了一个非常现实的问题：
如何在不牺牲能力的情况下，把成本降低 20%～60%？

2. Agent 架构让“调用次数”失控增长

在 agent 系统里，一个用户请求可能触发几十甚至上百次 LLM 调用。

于是问题从：

“选哪个模型最好？”

变成：

“每一步是否都值得用同一个模型？”

评论中有人指出，现代 coding agent 已经“自己会分层选择模型”[1]：

exploration → 小模型
planning → 大模型
implementation → 中等模型

这实际上意味着：模型路由能力已经内生于 agent，但仍未标准化。

3. 一个关键争议：外置路由 vs 内置智能

讨论中有一个非常核心的分歧：

外部路由（proxy model）

优点：

统一控制成本
易部署
可观测

缺点：

破坏缓存机制（cache miss）
破坏 agent 的反馈闭环
缺少运行时上下文（例如刚刚失败的调用）

内部路由（agent 自主决策）

优点：

拥有完整上下文
可动态调整策略
更贴近任务语义

缺点：

成本不可控
难以全局优化

评论中有人直接指出：

“Changing mid-flight is costly”[1]

这句话其实点出了一个系统性矛盾：
路由发生在“系统层”还是“模型层”？

被忽视但关键的问题：缓存与状态

prompt cache 是模型路由的隐形约束

在很多生产系统中，prompt caching 是降低成本的核心手段。但路由系统可能破坏这一机制：

不同模型 → cache 不共享
路由切换 → cache miss 增加
agent 重建上下文 → token 成本上升

有评论明确指出这一点：

“proxy model blows that up”[1]

换句话说：

路由节省的成本，可能被 cache 损失抵消。

这是当前很多模型路由系统尚未完全解决的问题。

更深一层：模型路由其实是在做“计算资源编排”

如果从基础设施视角看，模型路由并不只是 LLM 优化，而是：

把“智能计算”变成可调度资源

类似于：

CPU scheduler（进程调度）
Kubernetes（容器调度）
CDN（请求分发）

不同之处在于：

调度对象不再是“算力”
而是“不同能力层级的智能模型”

对开发者意味着什么？

1. 应用架构会变成“多模型系统设计”

未来的 AI 应用可能默认包含：

routing layer（模型选择）
caching layer（上下文复用）
fallback layer（失败恢复）
evaluation layer（质量监控）

开发者不再只是“调用 API”，而是在设计一个模型协作系统。

2. “选模型”会变成基础能力

就像现在没人手动选择 CPU core 一样：

开发者不会直接选模型
系统会自动分配模型能力

这也意味着一个趋势：

LLM API 将从“函数调用”变成“智能调度接口”

3. 评估体系会成为核心竞争力

评论中有人建议：

用 terminalbench / deepswe bench 来验证成本与性能收益[1]

这其实指向一个关键点：

没有统一 eval，路由优化无法验证价值。

未来可能出现：

routing benchmark
cost-performance curve
per-task routing accuracy

总结：从“模型时代”走向“调度时代”

模型路由的意义不只是省钱，而是一个更底层的变化：

LLM 应用正在从“单模型智能”进入“多模型系统工程”。

Hacker News 上的讨论之所以激烈，并不是因为这个项目本身多新，而是它击中了一个正在发生的结构性转变：

模型越来越多
能力差异越来越大
成本差距越来越显著
agent 调用越来越频繁

当这些条件同时成立，“如何选模型”就不再是优化问题，而是架构问题。

未来真正重要的能力，可能不再是“用好某一个模型”，而是：

如何让一群模型协同工作，并且在成本与性能之间持续找到最优点。

参考

[1] Hacker News: Show HN – Smart model routing directly in Claude, Codex and Cursor
https://news.ycombinator.com/item?id=48688700
https://github.com/workweave/router