AI调用也要做‘调度优化’:模型路由如何重塑成本与性能
AI调用也要做“调度优化”:模型路由如何重塑成本与性能
在过去一年里,大模型应用的成本问题逐渐从“隐性预算项”变成了工程团队绕不开的核心约束。当一个团队从原型走向生产系统,最先爆炸的往往不是算力,而是 API 账单。于是,一个看似“二级基础设施”的方向开始变得显眼:模型路由(Model Routing)——让系统在不同任务之间自动选择合适的 LLM。
最近 Hacker News 上一个关于“智能模型路由接入 Claude / Codex / Cursor”的项目讨论热度很高[1],背后其实折射出一个更大的变化:AI 应用正在从“单一模型调用”走向“多模型调度系统”。
从“一个大模型解决一切”到“多模型协同”
为什么单模型架构开始失效
早期 LLM 应用很简单:选一个最强模型,把所有请求都丢进去。但现实很快给出了反馈:
- 简单任务(摘要、格式转换)用旗舰模型过于昂贵
- 复杂任务(架构推理、调试)小模型容易失败
- agent 系统中调用次数指数增长
尤其是在 coding agent 场景中,一个请求往往会拆成:
- 规划(Planning)
- 检索代码上下文(Retrieval)
- 执行修改(Execution)
- 代码审查(Review)
每一步对模型能力要求完全不同。如果全用同一个模型,本质上是在用“最贵配置跑全流程”。
这也是为什么该项目作者提到,他们在使用 Opus 4.7 后由于 tokenizer 变化导致成本飙升,最终选择构建路由系统来“按需分配模型能力”[1]。
模型路由系统在做什么?
核心思想:给 LLM 调度加一层“控制器”
该 Hacker News 项目实现了一个类似“AI API 代理层”的系统,它会:
- 接收所有模型请求
- 判断任务复杂度
- 选择合适模型(便宜 / 快 / 强)
- 转换请求格式并转发
例如:
- 简单代码生成 → DeepSeek / GLM 这类低成本模型
- 复杂规划任务 → Claude Opus 或 GPT 前沿模型
- 子 agent 探索代码 → 快速模型
- 最终执行 patch → 中等能力模型
更关键的是,他们不是简单规则判断,而是用了基于 agent traces 的强化学习(RL)模型来学习路由策略[1]。
RL 路由的本质:学习“任务→模型”的映射
训练数据来自大量 agent 行为轨迹:
- 输入:任务 + 上下文
- 输出:选择哪个模型 + 是否成功完成任务
奖励函数很直接:
选对模型并完成任务 → 正奖励
失败或成本过高 → 负奖励
从系统设计角度看,这相当于把“模型选择”变成一个可学习的决策问题,而不是工程师手写规则。
为什么这个话题在社区爆火?
1. 成本焦虑已经成为开发者共识
评论区中最典型的反馈之一是:
“API rate cost has really become an issue”[1]
这句话几乎代表了当前 AI 工程的普遍状态——不是“有没有能力”,而是“是否付得起”。
模型路由的吸引力就在于它直接回应了一个非常现实的问题:
如何在不牺牲能力的情况下,把成本降低 20%~60%?
2. Agent 架构让“调用次数”失控增长
在 agent 系统里,一个用户请求可能触发几十甚至上百次 LLM 调用。
于是问题从:
“选哪个模型最好?”
变成:
“每一步是否都值得用同一个模型?”
评论中有人指出,现代 coding agent 已经“自己会分层选择模型”[1]:
- exploration → 小模型
- planning → 大模型
- implementation → 中等模型
这实际上意味着:模型路由能力已经内生于 agent,但仍未标准化。
3. 一个关键争议:外置路由 vs 内置智能
讨论中有一个非常核心的分歧:
外部路由(proxy model)
优点:
- 统一控制成本
- 易部署
- 可观测
缺点:
- 破坏缓存机制(cache miss)
- 破坏 agent 的反馈闭环
- 缺少运行时上下文(例如刚刚失败的调用)
内部路由(agent 自主决策)
优点:
- 拥有完整上下文
- 可动态调整策略
- 更贴近任务语义
缺点:
- 成本不可控
- 难以全局优化
评论中有人直接指出:
“Changing mid-flight is costly”[1]
这句话其实点出了一个系统性矛盾:
路由发生在“系统层”还是“模型层”?
被忽视但关键的问题:缓存与状态
prompt cache 是模型路由的隐形约束
在很多生产系统中,prompt caching 是降低成本的核心手段。但路由系统可能破坏这一机制:
- 不同模型 → cache 不共享
- 路由切换 → cache miss 增加
- agent 重建上下文 → token 成本上升
有评论明确指出这一点:
“proxy model blows that up”[1]
换句话说:
路由节省的成本,可能被 cache 损失抵消。
这是当前很多模型路由系统尚未完全解决的问题。
更深一层:模型路由其实是在做“计算资源编排”
如果从基础设施视角看,模型路由并不只是 LLM 优化,而是:
把“智能计算”变成可调度资源
类似于:
- CPU scheduler(进程调度)
- Kubernetes(容器调度)
- CDN(请求分发)
不同之处在于:
- 调度对象不再是“算力”
- 而是“不同能力层级的智能模型”
对开发者意味着什么?
1. 应用架构会变成“多模型系统设计”
未来的 AI 应用可能默认包含:
- routing layer(模型选择)
- caching layer(上下文复用)
- fallback layer(失败恢复)
- evaluation layer(质量监控)
开发者不再只是“调用 API”,而是在设计一个模型协作系统。
2. “选模型”会变成基础能力
就像现在没人手动选择 CPU core 一样:
- 开发者不会直接选模型
- 系统会自动分配模型能力
这也意味着一个趋势:
LLM API 将从“函数调用”变成“智能调度接口”
3. 评估体系会成为核心竞争力
评论中有人建议:
用 terminalbench / deepswe bench 来验证成本与性能收益[1]
这其实指向一个关键点:
没有统一 eval,路由优化无法验证价值。
未来可能出现:
- routing benchmark
- cost-performance curve
- per-task routing accuracy
总结:从“模型时代”走向“调度时代”
模型路由的意义不只是省钱,而是一个更底层的变化:
LLM 应用正在从“单模型智能”进入“多模型系统工程”。
Hacker News 上的讨论之所以激烈,并不是因为这个项目本身多新,而是它击中了一个正在发生的结构性转变:
- 模型越来越多
- 能力差异越来越大
- 成本差距越来越显著
- agent 调用越来越频繁
当这些条件同时成立,“如何选模型”就不再是优化问题,而是架构问题。
未来真正重要的能力,可能不再是“用好某一个模型”,而是:
如何让一群模型协同工作,并且在成本与性能之间持续找到最优点。
参考
[1] Hacker News: Show HN – Smart model routing directly in Claude, Codex and Cursor
https://news.ycombinator.com/item?id=48688700
https://github.com/workweave/router