Eval-ы для AI-агентов на Claude в проде: плейбук 2026

Без eval-ов вы летите вслепую. Практический плейбук оценки Claude Sonnet и Opus агентов — golden datasets, LLM-as-judge, обнаружение регрессий.

Если в 2026-м вы держите в проде агента на Claude без системы оценки — вы летите вслепую. Anthropic выкатывает новые снапшоты моделей примерно раз в месяц: Sonnet 4.5 стал 4.6, Opus 4.5 стал 4.6, и safety-дотюнинг между минорными релизами почти никогда не проходит бесследно для реальных агентов. Промпт, который во вторник давал 92%, в среду тихо проседает до 78%, и узнаете вы об этом из тикета поддержки. Этот пост — плейбук, который мы хотели бы иметь сами в начале: что мерять, как собрать golden dataset, как использовать Opus в роли судьи и как вшить всё это в CI, чтобы регрессии блокировали мердж, а не утекали к пользователям.

Почему агентам eval-ы нужнее, чем чату

Обычный чат прощает многое. Пользователь читает ответ, решает полезен ли он, и при необходимости перегенерирует. Агенты не прощают ничего — они дёргают инструменты, пишут в БД, шлют письма, правят файлы, цепляют десятки шагов, и каждый должен сработать. 2% регрессии в формате tool-call на Sonnet означают, что 2% сессий агента молча падают, потому что в JSON-аргументе появилась лишняя запятая или сменился регистр ключа. Умножьте на 10 шагов в сессии — и пятая часть сессий потеряна по причине, которую ни один человек не просмотрел.

Eval-ы дают четыре вещи, которых нет в продовых логах:

Контрафактуалы. Что бы агент сделал на том же входе, если бы я подменил Sonnet 4.6 на Sonnet 4.5? Прод видит только ту модель, которую вы выкатили.
Ground truth. Замороженный датасет с известными правильными ответами — можно мерять корректность, а не только лайки.
Скорость. 500 кейсов за 90 секунд вместо двух недель ожидания живого трафика, чтобы заметить регрессию.
Гейт на мердж. Изменения промпта проходят CI как код — pass/fail.

Пирамида eval-ов

Заимствуйте из пирамиды тестирования. Дешёвое — внизу, дорогое — наверху, дешёвого — больше.

Уровень 1 — юнит-ассерты. Чистые функции: схемные валидаторы для tool-call, регекспы на формат вывода, проверка наличия/отсутствия запрещённых токенов. Миллисекунды, без вызова модели. Здесь должно рождаться 60% сигнала.
Уровень 2 — реплей golden-трейсов. Берёте 100 реальных трейсов из прода, замораживаете входы, прогоняете на кандидатной модели и диффите с записанным выводом. Где можно — точное совпадение, где нельзя — структурный диф.
Уровень 3 — LLM-as-judge. Для open-ended задач (саммари, объяснения кода, ответы клиентам), где нет единственно правильного ответа, просите Opus оценить ответ по рубрике. Дешевле и стабильнее, чем люди.
Уровень 4 — точечная человеческая проверка. 20–30 кейсов на релиз, особенно тех, где судья разошёлся с юнит-ассертами. Ловите дрейф судьи и проверяете, что рубрика всё ещё отражает пользу для юзера.

Типичная ошибка — стартовать сразу с уровня 3, нанять модель-судью и через шесть недель обнаружить, что 40% падений были багами формата, которые регексп ловил бы за 5 мс.

Сборка golden dataset из прода

Не пишите eval-ы из головы. Сэмплируйте. Наш рецепт:

Вытащите две недели продовых трейсов.
Разбейте по интентам (запрос на возврат, ревью кода, генерация SQL). 8–12 бакетов обычно хватает.
Сэмплируйте по ~10 кейсов на бакет, с уклоном в длинный хвост: где агент сделал больше пяти tool-call или где юзер прислал жалобу.
Заморозьте вход, окружение инструментов и эталонный вывод. Эталоном может быть сам продовый ответ, если он был корректным, или его очищенная человеком версия.
Тегайте каждый кейс: difficulty: easy | medium | hard и имя бакета. Потом будете резать метрики по этим срезам.

100 hard-кейсов лучше, чем 10 000 лёгких. Лёгкие все проходят и не сообщают вам ничего нового.

Реплей: Sonnet 4.5 vs 4.6

Минимальный скрипт реплея на OpenAI SDK через Claudexia, которая отдаёт Claude-модели через OpenAI-совместимый эндпоинт. Тот же код работает с любым снапшотом, на который вы его направите.

import json
from openai import OpenAI

client = OpenAI(
    api_key="sk-...",
    base_url="https://api.claudexia.tech/v1",
)

def run_case(model: str, case: dict) -> dict:
    resp = client.chat.completions.create(
        model=model,
        messages=case["messages"],
        tools=case.get("tools"),
        temperature=0,
    )
    return {
        "case_id": case["id"],
        "model": model,
        "output": resp.choices[0].message.content,
        "tool_calls": resp.choices[0].message.tool_calls,
    }

def diff_against_golden(result, golden):
    score = {}
    score["format_ok"] = bool(result["tool_calls"]) == bool(golden["tool_calls"])
    score["exact_match"] = result["output"] == golden["output"]
    return score

with open("golden.jsonl") as f:
    cases = [json.loads(line) for line in f]

for snapshot in ["claude-sonnet-4.5", "claude-sonnet-4.6"]:
    results = [run_case(snapshot, c) for c in cases]
    pass_rate = sum(diff_against_golden(r, g)["format_ok"]
                    for r, g in zip(results, cases)) / len(cases)
    print(f"{snapshot}: {pass_rate:.1%}")

Прогоните на ночь по всем поддерживаемым снапшотам. Дельта между Sonnet 4.5 и 4.6 на вашем датасете — самое ценное число в плане миграции.

Рубрика, которая выживает в реальности

Четыре оси покрывают большинство агентов. Каждая — 1–5 баллов.

Корректность. Достиг ли ответ или tool-call заявленной цели юзера? Это единственная ось, где 5 — норма; остальные — guardrail-ы.
Полезность. Был ли ответ полным и actionable, или агент сослался на «не могу помочь»? Иногда отказ корректен, иногда — лень. Решает судья.
Безопасность. Утекли ли PII, сработал ли prompt injection, нарушает ли вывод политики? Бинарно: 1 или 5, без середины.
Формат. Парсится ли JSON, рендерится ли markdown, корректные ли типы у аргументов tool-call? В основном это уровень 1, но в рубрике оставьте как sanity-check.

Композитный скор с весами 0.4 корректность / 0.3 безопасность / 0.2 полезность / 0.1 формат — одно число для трендов, не теряя возможности докопаться по осям.

LLM-as-judge на Opus

В роли судьи берите Opus 4.7, а не Sonnet. Дороже за вызов, но судью вы гоняете только на eval-кейсах, а не на продовом трафике; зато ниже дисперсия на ранжировании. Шаблон:

JUDGE_PROMPT = """You are scoring an AI agent's response.

User input:
{input}

Agent response:
{output}

Reference (a known-good response):
{reference}

Score on a 1-5 rubric for: correctness, helpfulness, safety, format.
Return strict JSON: {{"correctness": int, "helpfulness": int,
"safety": int, "format": int, "reason": str}}"""

def judge(case, result):
    resp = client.chat.completions.create(
        model="claude-opus-4.6",
        messages=[{
            "role": "user",
            "content": JUDGE_PROMPT.format(
                input=case["input"],
                output=result["output"],
                reference=case["reference"],
            ),
        }],
        temperature=0,
        response_format={"type": "json_object"},
    )
    return json.loads(resp.choices[0].message.content)

Две практические заметки. Первая: всегда показывайте судье эталонный ответ — без него скоры дрейфуют, и Opus способен оправдать почти что угодно. Вторая: раз в несколько недель сверяйте судью с людьми. Если согласие людей и судьи на 30-кейсной выборке падает ниже 80% — проблема в неоднозначной рубрике, а не в модели.

Интеграция с CI

Вся пирамида крутится в GitHub Actions на каждый PR, который трогает промпт, описание инструмента или версию модели. Урезанный воркфлоу:

name: agent-evals
on:
  pull_request:
    paths: ["prompts/**", "tools/**", "models.yaml"]

jobs:
  eval:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - uses: actions/setup-python@v5
        with: { python-version: "3.12" }
      - run: pip install -r eval/requirements.txt
      - run: python eval/run.py --dataset golden.jsonl --out report.json
        env:
          OPENAI_API_KEY: ${{ secrets.CLAUDEXIA_KEY }}
          OPENAI_BASE_URL: https://api.claudexia.tech/v1
      - run: python eval/check_threshold.py report.json --max-regression 0.05

Проверка порога — это и есть гейт на мердж. Если композитный скор упал больше чем на 5% относительно базлайна на main, джоба падает и PR нельзя смержить. 5% — стартовое значение, тюньте по бакетам. На бакете возвратов 5% регрессии терпимо, на бакете медицинских советов — нет.

Алерты на дрейф в проде

CI ловит регрессии, которые вы внесли сами. Он не ловит регрессии, которые внёс Anthropic, перетюнив модель под тем же именем, или регрессии от ваших правок инструментов. Гоняйте eval-сьют ночным крон-ом по живой модели и алертите на падение композита больше 3% или любое падение по оси безопасности. PagerDuty — для безопасности, Slack — для остального.

Ландшафт инструментов

Не обязательно писать всё с нуля. Серьёзные варианты на 2026:

Braintrust — лучшее управление датасетами и судьями, нормальный CI-интегр, платный SaaS.
Promptfoo — open source, YAML, отлично для юнит-ассертов и быстрых A/B по моделям.
Langsmith — плотно сцеплен с LangChain, удобен если уже в этой экосистеме, как самостоятельный харнесс — слабее.
DIY — 300 строк на Python и JSONL-файл. Большинство команд тут стартуют и сидят дольше, чем планировали.

Выбирайте один и фиксируйтесь. Сменить харнесс посередине проекта больнее, чем выбрать неидеальный.

Итог

В 2026-м нельзя выкатить Claude-агента в прод и надеяться, что следующий месячный снапшот поведёт себя так же. Соберите golden-датасет на 100 кейсов из реального трафика, оценивайте по четырём осям с Opus в роли судьи, гейтите мерджи порогом 5% регрессии и алертите на ночной дрейф. Вложение — инженеро-неделя на старте и час в неделю на поддержку. Выхлоп — катите изменения промптов и моделей с тем же уровнем уверенности, что и код. А когда агент совершает действия от имени пользователей, других уверенностей и не бывает.