Если в 2026 году вы выбираете модель Claude для продакшн-нагрузки, разница в цене между Sonnet 4.6, Opus 4.7 и Haiku повлияет на юнит- экономику сильнее, чем любые отличия в латентности или качестве. В этой статье — что стоит каждая модель за 1 млн токенов, где реально экономит prompt caching и как цены Claudexia соотносятся с прямыми тарифами Anthropic.
Три тарифа по форме затрат
Семейство Claude от Anthropic намеренно разделено на три ценовых уровня:
- Haiku — самый дешёвый уровень. Оптимизирован для высокочастотной классификации, роутинга, извлечения данных и лёгкого чата. По умолчанию используйте Haiku для любого шага агентного пайплайна, где не нужны длинные рассуждения.
- Sonnet 4.6 — рабочая лошадка. Сильное рассуждение, большой контекст, цена примерно в 5 раз выше Haiku. Большинство продакшн-ассистентов и кодовых агентов работают на Sonnet — соотношение качество/цена сложно превзойти.
- Opus 4.7 — фронтир-уровень. Для сложных рассуждений, планирования и задач, где один вызов Opus заменяет пять ретраев Sonnet. Цена выходных токенов примерно в 5 раз выше Sonnet.
Входные и выходные токены
Типичная ошибка при моделировании затрат на Claude — считать входные и выходные токены одной статьёй. Это не так. Выходные токены примерно в 5 раз дороже входных на любом тарифе. Для ассистента, который выдаёт длинные ответы (саммари, код, отчёты), выходные токены доминируют — иногда 80% и больше счёта. Для RAG-чата с короткими ответами по большому контексту доминируют входные.
Два практических вывода:
- Жёстко ограничивайте
max_tokens. Лимит в 4 000 токенов на чат, которому реально нужно 800, — это постоянный пятикратный налог на длинный хвост многословных ответов. - Используйте стриминг и ранний выход. Если потребитель может действовать по первому абзацу, обрывайте стрим, а не ждите окончания генерации.
Prompt caching: где настоящая экономия
Prompt caching даёт большую скидку на закэшированные входные токены (системные промпты, длинные документы, схемы инструментов) при повторных вызовах. Для агентных циклов, которые на каждом шаге шлют один и тот же системный промпт и список инструментов, кэширование снижает стоимость ввода на 80–90% в стабильном режиме. Используйте.
Как Claudexia тарифицирует Claude
Claudexia — это шлюз Claude с оплатой за токены. Мы повторяем прямые тарифы Anthropic на модели, поэтому вы можете сменить base URL без переучёта затрат. Платите только за использованные токены — без месячных минимумов, без оплаты за места и без обязательств. Пополняйте через СБП, крипто или карту и обращайтесь к привычным Anthropic- или OpenAI-совместимым эндпоинтам.
Актуальный прайс доступен по адресу /v1/models/info, ссылка на
страницу тарифов есть в дашборде.
Итог
Haiku — для дешёвого, Sonnet — для дефолта, Opus — для сложного.
Ограничивайте max_tokens. Кэшируйте системные промпты. И прекращайте
оптимизировать — катите.