Як Claude Sonnet 5 демонструє результати у складних тестах?

Модель показує стабільне зростання в деяких сферах, зокрема отримала 9 пунктів на Terminal-Bench v2.1, 10 пунктів на Humanity's Last Exam та 7 пунктів на SciCode. Проте у складних міркуваннях вона поступається більшим моделям, отримавши лише 17 відсотків у тесті CritPt.

ШІ • Редакція PROEVERYTHING • 2026-07-01 17:11 • Читати оригінал на The-decoder • 2 хв читання • 0

Anthropic випустила Claude Sonnet 5 з прихованим зростанням вартості

Компанія Anthropic випустила модель Claude Sonnet 5, яка демонструє значне зростання продуктивності, але водночас приховує реальне збільшення вартості використання через специфіку споживання токенів. Попри те, що офіційні тарифи на мільйон токенів залишилися незмінними порівняно з попередньою версією, фактичні витрати на виконання завдань зросли майже вдвічі. Це створює ілюзію стабільності цін для розробників, тоді як реальний бюджетний вплив моделей Anthropic продовжує зростати.

Головне

Anthropic випустила Claude Sonnet 5 з ціною $3 за мільйон вхідних та $15 за мільйон вихідних токенів
Вартість виконання завдань зросла майже вдвічі через споживання на 40% більше вихідних токенів порівняно з Sonnet 4.6
У тестах агентської роботи Claude Sonnet 5 виконує утричі більше циклів агента, що подвоює витрати

#Anthropic #Claude #LLM #штучний інтелект #технології

Велика цифра «5», сформована з американських грошових купюр та монет на світло-бежевому фоні. · Джерело зображення: The-decoder

За даними The-decoder, новий випуск Claude Sonnet 5 від компанії Anthropic демонструє класичний паттерн прихованого підвищення вартості. Хоча на перший погляд модель здається економічно вигідною завдяки збереженню попередніх тарифів на вхідні та вихідні токени, аналітичні тести показують іншу картину щодо реальних витрат на виконання складних операцій.

Економіка прихованих витрат

Аналіз від Artificial Analysis свідчить, що Claude Sonnet 5 зберігає ціну $3 за мільйон вхідних токенів та $15 за мільйон вихідних. Проте середня вартість виконання завдання в Intelligence Index становить $2.29 для Sonnet 5 проти $1.97 у дорожчої моделі Opus 4.8. Основна причина полягає у значному збільшенні обсягу споживаних токенів на одну одиницю роботи. На максимальних налаштуваннях продуктивності модель витрачає приблизно на 40 відсотків більше вихідних токенів порівняно з попередньою версією Sonnet 4.6.

У тестах агентської роботи, таких як AA-Briefcase та GDPval-AA, Claude Sonnet 5 виконує приблизно втричі більше циклів агента. Це призводить до того, що вартість завдання зросла з $1.20 до майже подвійного показника, попри те, що модель виявила кращі результати у деяких тестах ніж Opus 4.8.

Обмеження в складних міркуваннях

Попри значні покращення, Claude Sonnet 5 все ще поступається більшим моделям у завданнях, що потребують глибоких знань та складних міркувань. Наприклад, у тесті CritPt від Argonne National Labs модель отримала лише 17 відсотків, що є нижчим за показники GLM-5.2, Claude Opus та GPT-5.5 у їхніх високих конфігураціях.

Проте модель демонструє стабільне зростання в інших сферах:

9 пунктів на Terminal-Bench v2.1;
10 пунктів на Humanity's Last Exam;
7 пунктів на SciCode.

Ситуація з Anthropic повторюється вже не вперше: під час запуску Opus 4.7 компанія змінила токенайзер, що призвело до збільшення кількості токенів на той самий текст приблизно на 30 відсотків. Поєднання цього фактору з більш «агентською» поведінкою моделей створює складну систему прихованих витрат. На фоні конкурентів, таких як Deepseek V4 Pro та GLM-5.2, які пропонують високу продуктивність за значно нижчі ціни у середньому сегменті, така стратегія прозорості цін стає критичною для розробників.

Для індустрії важливо перейти від моделі оплати за сирі токени до більш зрозумілих метрик, таких як вартість виконання стандартизованого завдання або конкретного робочого процесу.

Контекст для України

Для українських розробників та стартапів, які інтегрують API Anthropic у свої продукти (наприклад, у сервіси автоматизації або аналітики), така стратегія ціноутворення створює ризики непередбачуваних витрат. Оскільки багато українських компаній працюють з моделями як частину складних агентських систем, зростання кількості циклів на одне завдання може суттєво вплинути на маржинальність продуктів у гривнях. Використання Claude Sonnet 5 в Україні залишається доступним, але фахівцям варто враховувати реальну вартість виконання завдань замість формальних цін за токени.

Часті запитання

Чому вартість використання Claude Sonnet 5 зросла попри незмінні тарифи?: Хоча офіційні ціни на мільйон токенів залишилися попередніми, модель споживає значно більше обсягу токенів на одну одиницю роботи. На максимальних налаштуваннях продуктивності вона витрачає приблизно на 40 відсотків більше вихідних токенів порівняно з попередньою версією Sonnet 4.6.
Як Claude Sonnet 5 демонструє результати у складних тестах?: Модель показує стабільне зростання в деяких сферах, зокрема отримала 9 пунктів на Terminal-Bench v2.1, 10 пунктів на Humanity's Last Exam та 7 пунктів на SciCode. Проте у складних міркуваннях вона поступається більшим моделям, отримавши лише 17 відсотків у тесті CritPt.

Свіжі новини у нашому Telegram

Отримуйте миттєві сповіщення про нові публікації в рубриці «ШІ»

@proaiandevenmore