Claude Opus 4.8 для coding agents: роутинг, evals и контроль цены

Как использовать Claude Opus 4.8 как planner и reviewer для coding agents, оставляя Sonnet и Haiku на массовых этапах выполнения.

Самый очевидный способ использовать Claude Opus 4.8 для coding agents - направить все agent calls в флагманскую модель. Это работает, но часто слишком дорого. В production обычно лучше модельная лестница.

В coding-agent системе Opus 4.8 должна отвечать за моменты, где нужен judgement. Sonnet 4.6 должен выполнять большую часть правок. Haiku 4.5 полезна для классификации, triage и коротких технических проверок. В Claudexia это удобно: один API-ключ маршрутизирует все модели через один base URL.

Лестница моделей для coding agents

Используйте четыре роли:

Роль	Модель	Почему
Planner	Opus 4.8	держит широкий контекст и выбирает безопасный путь реализации
Worker	Sonnet 4.6	быстро правит файлы с хорошим качеством кода
Classifier	Haiku 4.5	дешево размечает логи, ошибки и падения тестов
Reviewer	Opus 4.8	ловит ошибки дизайна, пропущенные тесты и рискованные предположения

Это похоже на работу сильной инженерной команды. Сеньор не печатает каждую строку. Он задает план, проверяет результат и подключается к сложным местам.

Пример routing policy

Держите model names в конфиге:

AGENT_PLANNER_MODEL="claude-opus-4.8"
AGENT_WORKER_MODEL="claude-sonnet-4.6"
AGENT_CLASSIFIER_MODEL="claude-haiku-4.5"
AGENT_REVIEWER_MODEL="claude-opus-4.8"

И сделайте эскалацию явной:

type AgentStage = "plan" | "edit" | "classify" | "review";

const modelByStage: Record<AgentStage, string> = {
  plan: process.env.AGENT_PLANNER_MODEL ?? "claude-opus-4.8",
  edit: process.env.AGENT_WORKER_MODEL ?? "claude-sonnet-4.6",
  classify: process.env.AGENT_CLASSIFIER_MODEL ?? "claude-haiku-4.5",
  review: process.env.AGENT_REVIEWER_MODEL ?? "claude-opus-4.8",
};

function chooseModel(stage: AgentStage, risk: "low" | "medium" | "high") {
  if (risk === "high") return "claude-opus-4.8";
  return modelByStage[stage];
}

High-risk задачи - auth, billing, миграции, security-sensitive изменения, большие рефакторинги и правки общих execution paths. Low-risk задачи - copy, docs, стили и изолированные UI-изменения.

Что проверять перед переключением

Не оценивайте апгрейд по ощущениям. Соберите фиксированный набор coding-agent задач и смотрите:

Task success rate: агент действительно сделал нужное поведение?
Test pass rate: targeted test и релевантная regression suite прошли?
Patch size: модель меняла только нужные файлы или задела лишнее?
Review findings: Opus нашла проблемы, которые Sonnet пропустил?
Rollback rate: staging или production потребовали ручного отката?
Cost per merged task: качество оправдало spend?

У большинства команд Opus 4.8 сначала выигрывает на этапах planner/reviewer, а не как default worker. Это нормально: большую часть reasoning-выигрыша можно получить меньшим числом токенов.

Cursor и Claude Code

Для Cursor оставьте OpenAI-compatible base URL:

https://api.claudexia.tech/v1

Используйте alias из dashboard или прямой model id Claudexia там, где клиент это поддерживает:

claude-opus-4.8

Для Claude Code задайте Anthropic base URL:

export ANTHROPIC_BASE_URL="https://api.claudexia.tech"
export ANTHROPIC_API_KEY="YOUR_KEY"
export ANTHROPIC_MODEL="claude-opus-4.8"

Если вы много работаете в Claude Code, держите Sonnet 4.6 как повседневную модель и переключайтесь на Opus 4.8 для planning/review-сессий. На больших репозиториях разница в цене быстро становится заметной.

Правила контроля стоимости

Три правила держат Opus 4.8 в рамках бюджета:

Кэшируйте стабильный контекст: repo instructions, architecture notes, coding standards.
Делайте planning prompt коротким: просите решения и риски, а не большой текст.
Требуйте от reviewer краткости: ranked findings, точные file references и "no issue", если чисто.

Ошибка - просить Opus пересказать все, что она только что прочитала. Лучше просить ее решить, что действительно важно.

Вывод

Opus 4.8 отлично подходит для дорогих judgement calls внутри coding-agent систем. Сначала используйте ее как planner и reviewer, измеряйте через evals и повышайте до worker только там, где Sonnet стабильно промахивается. Так вы получаете прирост качества без неконтролируемого роста spend.