Claudexia vs самохост LiteLLM: купить или собрать Claude-шлюз в 2026

Когда стоит поднимать LiteLLM-прокси для Claude самому, а когда взять готовый шлюз вроде Claudexia — TCO, операционная нагрузка, наблюдаемость и безопасность.

Любая команда, которая масштабирует использование Claude дальше пары инженеров, рано или поздно упирается в одну и ту же развилку: ставить ли шлюз перед Anthropic API, и если да — поднимать самим или платить кому-то за управляемый сервис. Дефолтный open-source ответ в 2026 году — LiteLLM, популярный Python-прокси, который прячет 100+ провайдеров моделей за единым OpenAI-совместимым API. Дефолтный managed-ответ — Claudexia. Этот пост — трезвое сравнение двух подходов: реальные цифры TCO, операционная нагрузка, на которую вы подписываетесь, и те границы безопасности и комплаенса, где каждое решение объективно выигрывает.

Что такое LiteLLM на самом деле

LiteLLM начинался как тонкая Python-библиотека, которая нормализовала вызовы OpenAI, Anthropic, Cohere и других за одной функцией litellm.completion(). Со временем он вырос в полноценный прокси-сервер с control plane на PostgreSQL: виртуальные API-ключи, бюджеты на ключ, rate limits, иерархия команд и пользователей, audit log, админка и webhook-колбэки. Вы деплоите его контейнером, прописываете upstream-ключи провайдеров, а ваше приложение ходит в ваш прокси через OpenAI SDK с кастомным base_url.

Это действительно хорошее ПО. Это также ПО, которое теперь принадлежит вам — вместе с патчами, инцидентами и capacity planning.

Реальный TCO самохоста LiteLLM

Прайс-тег у LiteLLM нулевой. Реальные расходы на production-шлюз для, скажем, команды из 20 инженеров и нескольких внутренних приложений выглядят примерно так в месяц:

Compute. Две небольшие инстанции за балансировщиком плюс staging. $80–$150/мес на любом крупном облаке с учётом самого LB.
PostgreSQL. Managed Postgres под control plane (ключи, расходы, audit log). $50–$120/мес за небольшой HA-тариф с бэкапами.
Redis. Нужен для корректного распределённого rate limiting между репликами прокси. $20–$50/мес.
Наблюдаемость. Логи, метрики, трейсы — Datadog, Grafana Cloud или ваш стек. Реалистично $50–$200/мес инкрементальных расходов, когда вы реально это инструментируете.
Egress и TLS. Сертификаты бесплатные, egress в Anthropic — нет, и на масштабе он заметен.

Это примерно $200–$500/мес чистой инфраструктуры до того, как к ней прикоснулся человек. Инфраструктура — дешёвая часть.

Дорогая часть — люди. Production-шлюзу нужны:

On-call ротация, которая владеет прокси, когда у Anthropic региональный инцидент, когда ваш Postgres делает failover в 03:00, или когда сбежавший агент сжигает бюджет виртуального ключа за десять минут.
Security-патчинг контейнера LiteLLM, его базового образа и Python-зависимостей — прокси стоит на пути каждого промпта и каждого ответа, поэтому CVE здесь не опциональны.
Регулярная ротация upstream-ключей Anthropic, виртуальных ключей для внутренних команд и админских кредов самого прокси.
Апгрейды. LiteLLM релизится часто и иногда привозит миграции схемы или ломающие конфиг изменения; кто-то должен читать changelog и тестировать апгрейды на staging.

Если оценить senior-инженера в $150/час с учётом нагрузки и заложить четыре часа в неделю на устойчивое владение плюс редкие инциденты, это $2 000–$3 000/мес человеческого времени поверх инфры. Честный TCO «бесплатного» LiteLLM на умеренном масштабе ближе к $2 500–$3 500/мес, чем к нулю.

Управляемая альтернатива от Claudexia

Claudexia — продукт той же формы: виртуальные ключи, бюджеты, rate limits, audit log, OpenAI-совместимые и Anthropic-нативные эндпоинты — поставляемый как managed-сервис. Не нужно деплоить прокси, бэкапить Postgres, сайзить Redis и держать on-call. Регистрируетесь, выпускаете ключ, направляете SDK на https://api.claudexia.tech/v1 — всё. Тариф — оплата за токены по прямым ставкам Anthropic, без месячного минимума и платы за seat.

Поэтому buy-vs-build на умеренном масштабе сводится не к инфраструктуре. Вопрос в том, больше или меньше маржа, которую Claudexia забирает с токенов, чем те $2 500–$3 500/мес, которые вы иначе тратите на эксплуатацию LiteLLM. Для большинства команд под пару сотен миллионов токенов в месяц managed выигрывает уверенно.

Паритет фич одним взглядом

Возможность	Самохост LiteLLM	Claudexia (managed)
OpenAI-совместимый `/v1/chat/completions`	Да	Да
Anthropic-нативный `/v1/messages`	Да	Да
Виртуальные API-ключи на команду	Да	Да
Бюджеты и лимиты расходов на ключ	Да	Да
Rate limits (RPM / TPM)	Да	Да
Audit log по каждому вызову	Да (в вашей БД)	Да (в дашборде)
Pass-through prompt caching	Да	Да
Streaming	Да	Да
Bring-your-own provider key	Да (любой провайдер)	Нет (только Claude)
Кастомная Python-логика роутинга	Да	Нет
Вы эксплуатируете БД	Да	Нет
Вы патчите контейнер	Да	Нет
Вы держите on-call	Да	Нет

Функциональная поверхность под Claude практически идентична. Разница — кто это эксплуатирует и сколько провайдеров фронтит.

Безопасность: кто реально видит промпты

Этот вопрос должен влиять на решение сильнее TCO.

При самохосте LiteLLM промпты и ответы проходят через:

Ваше приложение.
Ваш LiteLLM-прокси (в вашем VPC).
API Anthropic.

Три участника, два из которых под вашим контролем. Логи, если они есть, живут в вашей инфраструктуре и наследуют ваши политики ретенции и доступа.

При Claudexia промпты и ответы проходят через:

Ваше приложение.
Шлюз Claudexia.
API Anthropic.

Три участника, один из которых — мы. Мы не храним содержимое промптов и ответов сверх необходимого для биллинга и отладки конкретного запроса и не используем его для обучения. Но вы доверяете нашему слову и нашему SOC 2, а не своим внутренним контролям. Большинству команд это подходит, некоторым — нет.

Комплаенс: когда самохост действительно обязателен

Есть сценарии, где самохост — не предпочтение, а требование:

HIPAA-нагрузки, где вы не можете подписать BAA с вендором шлюза. Если ваш единственный BAA-покрытый путь к Claude — напрямую через Anthropic поверх AWS Bedrock, шлюз обязан жить внутри HIPAA-контура.
Жёсткие границы SOC 2 / ISO 27001. Если ваш audit scope говорит, что никакие сторонние процессоры не касаются клиентских данных, managed-шлюз — это новый субпроцессор, которого пришлось бы декларировать, оценивать и защищать.
Требования по data residency. Только-EU или только-RU роутинг, где трафик не должен покидать конкретный регион.
Air-gapped или VPC-only окружения. Очевидно.

Если что-то из этого ваш случай — поднимайте LiteLLM. Разговор про TCO становится беспредметным.

Код: как реально выглядит сетап

Самохост LiteLLM, минимально жизнеспособный production:

# 1. Postgres + Redis уже подняты, далее:
docker run -d --name litellm \
  -e DATABASE_URL=postgres://... \
  -e REDIS_URL=redis://... \
  -e ANTHROPIC_API_KEY=sk-ant-... \
  -e LITELLM_MASTER_KEY=sk-master-... \
  -p 4000:4000 \
  ghcr.io/berriai/litellm:main-stable \
  --config /app/config.yaml

Плюс config.yaml со списком моделей, плюс Terraform на балансировщик, плюс алертинг, плюс бэкапы, плюс runbook на апгрейды.

Дальше приложение:

from openai import OpenAI

client = OpenAI(
    api_key="sk-virtual-key-for-this-team",
    base_url="https://litellm.internal.example.com/v1",
)
resp = client.chat.completions.create(
    model="claude-sonnet-4.6",
    messages=[{"role": "user", "content": "hello"}],
)

Claudexia, та же задача:

from openai import OpenAI

client = OpenAI(
    api_key="cdx-...",
    base_url="https://api.claudexia.tech/v1",
)
resp = client.chat.completions.create(
    model="claude-sonnet-4.6",
    messages=[{"role": "user", "content": "hello"}],
)

Код приложения намеренно одной формы — в этом и смысл OpenAI-совместимого стандарта. Разница в том, что второй сниппет — это весь сетап целиком.

Когда LiteLLM всё ещё выигрывает

Не будем делать вид, что Claudexia — правильный ответ для всех. LiteLLM лучше, когда:

Вам нужно bring-your-own ключи под много провайдеров — OpenAI, Anthropic, Bedrock, Vertex, Azure OpenAI, Cohere, Mistral, Together, Groq, ваш собственный vLLM — за одним эндпоинтом. Claudexia Claude-сфокусированный; LiteLLM — мультипровайдерный швейцарский нож.
Вам нужна кастомная Python-логика роутинга в самом прокси: pre-call хуки, переписывающие промпт, post-call хуки, редактирующие PII, fallback-цепочки между провайдерами или гардрейлы прямо в request path.
У вас комплаенс-граница, запрещающая managed-субпроцессора, как обсуждалось выше.
У вас уже есть зрелая платформенная команда, для которой ещё один сервис — погрешность округления.

Итог

Если вы Claude-first команда под пару сотен миллионов токенов в месяц, buy-решение очевидно: managed-шлюзы вроде Claudexia дешевле полной стоимости самостоятельного владения LiteLLM и освобождают инженеров, чтобы те шипали продукт, а не патчили прокси. Если вы мультипровайдерные, нуждаетесь в кастомном роутинге в request path или сидите внутри комплаенс-границы, которая запрещает сторонний шлюз — поднимайте LiteLLM сами и закладывайте в бюджет честную стоимость эксплуатации.

В любом случае не пропускайте шлюз вовсе. Ходить в Anthropic напрямую из двадцати разных сервисов с общим root-ключом — это худший из миров.