За даними The-decoder, новий випуск Claude Sonnet 5 від компанії Anthropic демонструє класичний паттерн прихованого підвищення вартості. Хоча на перший погляд модель здається економічно вигідною завдяки збереженню попередніх тарифів на вхідні та вихідні токени, аналітичні тести показують іншу картину щодо реальних витрат на виконання складних операцій.
Економіка прихованих витрат
Аналіз від Artificial Analysis свідчить, що Claude Sonnet 5 зберігає ціну $3 за мільйон вхідних токенів та $15 за мільйон вихідних. Проте середня вартість виконання завдання в Intelligence Index становить $2.29 для Sonnet 5 проти $1.97 у дорожчої моделі Opus 4.8. Основна причина полягає у значному збільшенні обсягу споживаних токенів на одну одиницю роботи. На максимальних налаштуваннях продуктивності модель витрачає приблизно на 40 відсотків більше вихідних токенів порівняно з попередньою версією Sonnet 4.6.
У тестах агентської роботи, таких як AA-Briefcase та GDPval-AA, Claude Sonnet 5 виконує приблизно втричі більше циклів агента. Це призводить до того, що вартість завдання зросла з $1.20 до майже подвійного показника, попри те, що модель виявила кращі результати у деяких тестах ніж Opus 4.8.
Обмеження в складних міркуваннях
Попри значні покращення, Claude Sonnet 5 все ще поступається більшим моделям у завданнях, що потребують глибоких знань та складних міркувань. Наприклад, у тесті CritPt від Argonne National Labs модель отримала лише 17 відсотків, що є нижчим за показники GLM-5.2, Claude Opus та GPT-5.5 у їхніх високих конфігураціях.
Проте модель демонструє стабільне зростання в інших сферах:
- 9 пунктів на Terminal-Bench v2.1;
- 10 пунктів на Humanity's Last Exam;
- 7 пунктів на SciCode.
Ситуація з Anthropic повторюється вже не вперше: під час запуску Opus 4.7 компанія змінила токенайзер, що призвело до збільшення кількості токенів на той самий текст приблизно на 30 відсотків. Поєднання цього фактору з більш «агентською» поведінкою моделей створює складну систему прихованих витрат. На фоні конкурентів, таких як Deepseek V4 Pro та GLM-5.2, які пропонують високу продуктивність за значно нижчі ціни у середньому сегменті, така стратегія прозорості цін стає критичною для розробників.
Для індустрії важливо перейти від моделі оплати за сирі токени до більш зрозумілих метрик, таких як вартість виконання стандартизованого завдання або конкретного робочого процесу.