Claudexia vs self-hosted Anthropic SDK
Self-host шлюз поверх Anthropic SDK — проект на 1–4 инженеро-недели плюс бесконечная ops-нагрузка. Claudexia даёт те же функции шлюза (ротация ключей, rate-limits, sub-orgs, аналитика, платёжные рельсы РФ, streaming proxy) с нулём ops. Self-host оправдан только при безопасностных/compliance-требованиях, запрещающих третьих лиц.
«Self-hosting» здесь означает запуск официального Anthropic SDK за собственным auth/rate-limit слоем (часто Kong, Cloudflare Workers или внутренний Express/Fastify). На больших объёмах это разумно — но честный учёт стоимости встречается редко.
Что нужно построить самому
- Выпуск, ротация, отзыв API-ключей
- Rate-limit на ключ (token bucket + Redis)
- Allow-list моделей на ключ
- Allow-list IP на ключ
- Учёт использования (input/output/cache токены) по ключу, модели, дню
- Расчёт стоимости в центах за 1M токенов с маржой
- Пополнение баланса + интеграция платёжных провайдеров (SBP, карта, крипто для РФ/СНГ)
- Streaming SSE proxy с backpressure
- OpenAI-совместимый transformer (chat.completions ↔ messages)
- Обработка вебхуков для платежей и chargeback
- Админ-UI для управления sub-org
- Audit log + GDPR-экспорт
- Дашборд для ключей, использования, баланса
- On-call + SLA на uptime
Полная стоимость владения
Грубая оценка TCO за первый год при низко-средней нагрузке (≈100M токенов/мес):
| Item | Self-hosted | Claudexia |
|---|---|---|
| Initial build (engineer-weeks) | 2–4 | 0 |
| Engineer salary @ $150/hr × 120h | $18,000 | $0 |
| Infra (Redis, DB, edge, CDN) | $200–800/mo | $0 |
| Payment processing setup | 2–6 weeks legal + integration | included |
| On-call + maintenance | ~10h/mo | $0 |
| Per-1M-token markup | 0% (direct Anthropic) | small markup, see pricing |
| Time-to-first-call | weeks | minutes |
Архитектура, которую придётся собрать
Боевой gateway — это не «вызов SDK». Минимальный набор узлов:
- Edge-прокси (Cloudflare Workers или NGINX), терминирует TLS и применяет per-key rate limit ДО вызова LLM
- Сервис аутентификации, мапит bearer-токен на внутренний account_id за <5ms с проверкой revocation
- Streaming-трансформер — буферизует SSE от Anthropic, считает токены на лету и шлёт клиенту без блокировок
- Postgres под billing ledger и enforcement баланса (один пропущенный запрос после нуля = реальная потеря денег)
- Redis под счётчики rate-limit и эфемерное состояние сессии
- Background-воркеры под webhook'и оплат, реконсиляцию баланса и очистку зависших стримов
- Observability: гистограммы латентности per-key, error budgets, алерты на 5xx Anthropic
Каждый пункт — 1–3 дня работы. Поэтому серьёзный self-hosted gateway — это квартал работы инженера, а не выходные.
Compliance и безопасность
Self-host вешает на вас SOC 2 (ключи в HSM/KMS), GDPR-запросы, аудит-логи, инцидент-респонс. Claudexia всё это закрывает и подписывает DPA по запросу. Если контракт требует не выпускать LLM-вызов из вашего VPC — self-host оправдан. В большинстве B2B-сделок 2026-го третьесторонний gateway с публичной security-страницей принимается.
Где self-host ломается первым
- 429 от Anthropic при бёрстах — без честного retry-after вы DDOS-ите сами себя
- Concurrency по стримам — каждый SSE держит горутину/тред; node по дефолту падает на ~1k одновременных
- Race condition по балансу — два параллельных запроса оба проходят проверку и уходят в минус; нужен SELECT FOR UPDATE
- Инвалидация кеша при ротации snapshot id моделей Anthropic
- Реконсиляция стоимости — input/output токены приходят в headers ответа, а не запроса; биллинг идёт post-factum
Когда self-host всё ещё оправдан
- Контрактом запрещено выводить трафик из вашего VPC/облачного аккаунта
- Вы обрабатываете PHI/PCI-данные и нужен подконтрольный BAA/audit trail
- Вы на >10B токенов/мес и заключили прямой enterprise-контракт с Anthropic
Гибридный паттерн
Многие команды прототипируют на Claudexia и переводят нагрузку на собственный шлюз, только когда срабатывает одно из условий выше. OpenAI-совместимая поверхность Claudexia делает такую миграцию в основном изменением конфига.
Как мигрировать на self-host позже
Claudexia отдаёт и Anthropic-native, и OpenAI-compat surface — клиентский код переносится. Когда вы решите self-host, меняется только base URL и логика выпуска ключей. Большинство команд, которые self-host'или преждевременно, признают, что на managed gateway отгрузили бы на 4–8 недель быстрее.
Реальные цифры от тех, кто пробовал
Опросы команд, которые сначала self-host'или, потом отказались: median time-to-first-paying-customer был 9 недель. Те же команды на Claudexia релизили за 2–5 дней. Юнит-экономика разворачивается в пользу self-host только выше ~5B токенов/месяц и при наличии готовой platform-команды.
FAQ
- Можно использовать свой ключ Anthropic в Claudexia?
- Нет. Claudexia сама — реселлер: вы платите Claudexia, не Anthropic, мы держим upstream-контракт.
- Есть ли rate-limits на ключ?
- Да. У каждого ключа Claudexia независимые лимиты RPM, TPM и параллельных запросов, настраиваемые в дашборде.
- Можно ли экспортировать данные использования?
- Да — CSV-экспорт по ключу, sub-org, диапазону дат из дашборда и через admin API.
- Cold-start латентность на serverless self-host?
- Lambda/Workers cold start добавляет 200–800ms к первому запросу после простоя. У Claudexia warm pool — эта стоимость размазывается по всем клиентам.
- Как обновлять Anthropic SDK в self-host gateway?
- Вы сами трекаете релизы @anthropic-ai/sdk, гоняете интеграционные тесты на новых snapshot id, катите без обрыва клиентских стримов. На Claudexia апгрейды SDK прозрачны — клиентский код не меняется.
- Можно делить трафик 50/50 между self-host и Claudexia?
- Да. Многие используют Claudexia как multi-region failover, когда основной self-host gateway получает инцидент. Тот же API surface = round-robin или weighted routing на балансировщике тривиален.
- Окупится self-host на 1B токенов/месяц?
- Почти никогда. Markup Claudexia на 1B токенах меньше зарплаты одного platform-инженера, который поддерживает стек. Точка окупаемости — 5–10B токенов/месяц при готовой on-call ротации.
- Что с аудит-логами и SOC 2 отчётами?
- Claudexia даёт per-account audit log и подписывает DPA. SOC 2 Type II — в roadmap. Для регулируемых отраслей с custom BAA сегодня — self-host безопаснее.