Claude давно мультимодальный, но в 2026 году vision уже не побочная фича — это входная точка для большинства документных и агентных воркфлоу. Sonnet 4.7 и Opus 4.7 принимают изображения нативно в том же messages API, который вы уже используете для текста, а качество на текстоёмких входах (PDF, отрендеренный в PNG, скриншоты, отсканированные счета, дашборды) — основная причина, почему команды выбирают Claude поверх альтернатив для бэкофисной автоматизации.
Этот пост — практический справочник: какие форматы Claude принимает, сколько это стоит, в чём он силён, где ломается, и копипастный код, работающий против https://api.claudexia.tech/v1.
Форматы и лимиты
Claude vision принимает изображения как base64-блоки внутри user сообщения. Поддерживаемые форматы:
- PNG (
image/png) - JPEG (
image/jpeg) - GIF (
image/gif) — только первый кадр, без анимации - WebP (
image/webp)
Жёсткие лимиты:
- Максимальный размер файла: 5 МБ на изображение в base64. Всё крупнее нужно даунскейлить или резать.
- Максимальное разрешение: 8000 × 8000 пикселей. Больше — сразу отказ.
- Рекомендуемое разрешение: 1568 px по длинной стороне для обычного контента, 2000–2500 px для плотного текста. Выше ~1568 px не улучшает распознавание для обычных фото и просто раздувает счёт.
- Максимум картинок на запрос: 100, но на практике уже 20+ забивают контекст для большинства задач.
- Никакого видео, аудио и стриминга картинок. Нельзя пушить кадры в живой диалог. Если нужно видео — сэмплируйте кадры сами и шлите как отдельные изображения.
Анимированные GIF, скриншоты с HiDPI-мониторов, экспорт страниц PDF — всё работает. Claude не смотрит на EXIF, цветовой профиль или метаданные DPI, только на сырые пиксели.
Цены: vision не бесплатен
Частый сюрприз: vision обычно доминирует во входной стоимости запроса. Claude токенизирует изображения в пиксельные тайлы и считает их как input-токены. Грубо:
- Картинка 1092 × 1092 ≈ 1600 input-токенов.
- Стоимость растёт почти линейно от
width × height ÷ 750. - Полностраничный скриншот A4 высотой 2000 px — около 2400–2800 input-токенов.
По ценам Sonnet 4.7 на input (см. Цены на Claude API в 2026) один полностраничный скриншот стоит примерно как 2000 токенов прозы. Отправьте десять скриншотов в одном запросе — и input-счёт уже 25–30k токенов до того, как пользовательский промпт вообще учтён.
Два следствия:
- Кропайте агрессивно. Если нужен только график в углу — шлите только график. Половина пикселей = половина цены.
- Кэшируйте system prompt. С prompt caching текстовая часть длинных агентных промптов становится дешёвой, и image-токены остаются доминирующей стоимостью — что правильно, потому что картинки и так меняются каждый ход.
Одна картинка: минимальный пример
import anthropic, base64, pathlib
client = anthropic.Anthropic(
api_key="sk-...",
base_url="https://api.claudexia.tech/v1",
)
img = base64.standard_b64encode(
pathlib.Path("invoice.png").read_bytes()
).decode("utf-8")
resp = client.messages.create(
model="claude-sonnet-4.6",
max_tokens=1024,
messages=[{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "base64",
"media_type": "image/png",
"data": img,
},
},
{
"type": "text",
"text": (
"Извлеки номер счёта, дату, поставщика, сумму и строки. "
"Верни строгий JSON с ключами: invoice_number, date, "
"vendor, total, currency, items[]."
),
},
],
}],
)
print(resp.content[0].text)
Это весь vision API. Image-блок идёт внутри content как любая другая часть сообщения, и можно свободно мешать картинки и текст в одном ходе.
Несколько картинок: сравнение и привязка
Multi-image — там, где Claude блистает. Шлёте два скриншота и спрашиваете «что изменилось», или график плюс таблицу и спрашиваете «согласуются ли они».
def img_block(path, media_type="image/png"):
data = base64.standard_b64encode(pathlib.Path(path).read_bytes()).decode()
return {
"type": "image",
"source": {"type": "base64", "media_type": media_type, "data": data},
}
resp = client.messages.create(
model="claude-sonnet-4.6",
max_tokens=2048,
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "Картинка 1 — вчерашний дашборд, Картинка 2 — сегодняшний."},
img_block("dash_yesterday.png"),
img_block("dash_today.png"),
{"type": "text", "text": "Перечисли все метрики, изменившиеся больше чем на 5%, в JSON."},
],
}],
)
Claude надёжно использует окружающий текст как метки для каждой картинки — не нужно кодировать позицию метаданными, достаточно описать порядок словами.
Кейсы, которые реально работают
1. OCR и извлечение из документов. Счета, чеки, договоры, банковские выписки, документы. Claude справляется с многоколоночными лейаутами, повёрнутыми сканами и рукописными пометками гораздо лучше классических OCR-пайплайнов, и вы получаете структурированный вывод одним вызовом вместо OCR → парсер → валидатор.
2. График в данные. Шлёте столбчатый или линейный график, просите значения как JSON. Точность отличная на подписанных графиках, приемлемая на неподписанных (Claude оценит по сетке). Всегда просите confidence для каждого значения, если на основе этого собираетесь действовать.
3. Скриншот UI в селекторы. Показываете Claude скриншот страницы, просите Playwright-селекторы для видимых элементов. В связке с MCP browser tool — основа self-healing E2E тестов.
4. QA по PDF. Растеризуйте каждую страницу в PNG ~1500 px высотой, шлёте нужные страницы с вопросом. Лучше, чем парсинг PDF только по тексту, потому что таблицы, печати, подписи и графики сохраняются.
5. Сравнение нескольких изображений. Скриншоты до/после деплоя, две версии дизайна, два скана одной формы. Просите структурированный диф.
6. Визуальный дебаг. Вставляете скриншот стек-трейса плюс скриншот соответствующего куска кода. Claude читает оба и объясняет баг.
Промпт-паттерны для точности
- Заставляйте JSON. «Верни строгий JSON. Без прозы. Если поле нечитаемо —
null.» Claude почти не галлюцинирует поля, когда схема явная. - Требуйте confidence. Просите
confidence: low|medium|highрядом с каждым извлечённым значением. Низкий confidence — на ручную проверку. - Якорите текстом. Перед каждой картинкой пишите однострочное описание («Это страница 3 немецкой налоговой формы»). Это праймит модель и улучшает OCR на специфичных глифах.
- Режьте широкие таблицы. Для таблиц с 20+ колонками режьте на две половины и шлите как две картинки с перекрывающимися колонками — поймаете ошибки выравнивания.
- Кропайте лишнее. Хедеры, футеры, водяные знаки, реклама в скриншотах — всё ест токены. Кроп на 30% — скидка 30%.
- На плотном тексте побеждает разрешение. Для скан-текста 8 pt 2500 px по длинной стороне стоят дополнительных токенов. Для природных фото 1568 px достаточно.
Лимиты и отказы
- Видео нет. Сэмплируйте кадры сами.
- Стриминга картинок нет. Нельзя стримить новые картинки в середине ответа. Шлите всё в первом запросе.
- CAPTCHA и водяные знаки. Claude откажется решать CAPTCHA и будет осторожен с личными документами (паспорта, ID) без контекста. Объясните легитимный кейс в system prompt.
- Лица и идентификация. Claude описывает людей обобщённо, но не назовёт человека по фото.
- Взрослый и графический контент. Отказ.
- Координаты. Claude может описывать, где что находится («справа сверху», «под заголовком»), но bounding-box координаты — приблизительные, не пиксельно-точные. Для точных боксов берите специализированную detection-модель.
Claude vs GPT-4o по vision
Оба сильны, но у них разные сладкие пятна по тому, что отгружают команды:
- Claude побеждает на текстоёмких и структурированных документах. Счета, таблицы, многостраничные договоры, дашборды, код на экране, отсканированные формы. OCR точнее, JSON-вывод дисциплинированнее.
- GPT-4o побеждает на природных фото и физическом ризонинге. Распознать объекты в захламлённой комнате, читать body language, интерпретировать неоднозначные сцены. На малых картинках ещё и латенси меньше.
- Ничья на графиках. Оба хорошо извлекают значения из чистых графиков; оба одинаково ломаются на стилизованных инфографиках.
- Claude побеждает на длинном multi-image контексте. Отправить 20 скриншотов флоу приложения в одном запросе и получить связный анализ — там, где больший контекст Claude и лучший cross-image grounding окупаются.
Для бэкофисной автоматизации, документных пайплайнов и агентных воркфлоу со скриншотами приложений Claude — дефолт. Для потребительских фото-фич GPT-4o конкурентен.
Итог
Vision плюс tool use — это то, что превращает Claude из чатбота в документного агента: он смотрит на экран, решает, что делать, и вызывает инструмент. В 2026 году большинство продакшен-фич «AI документов» — это именно этот цикл: растеризовать, отправить Claude, получить JSON, валидировать, действовать. Начните с одной картинки, форсируйте JSON, померяйте точность на 100 реальных документах и только потом масштабируйте. Vision надёжен, но это и место, где счёт за токены тихо растёт — кропайте раньше, кэшируйте промпты и никогда не шлите 4K скриншот, если 1500 px хватит.