За даними Yellow, останні порівняння продуктивності моделей від OpenAI та Anthropic виявили цікавий розподіл ніш у сфері програмування. Нова лінійка GPT-5.6 від OpenAI включає три рівні, де флагманська модель Sol стає основним інструментом для роботи з командним рядком та координації підагентів.
Показники продуктивності та архітектурні особливості
Модель GPT-5.6 Sol досягла результату 88,8% на Terminal-Bench 2.1, де оцінюється здатність агентів планувати дії, ітерувати та використовувати інструменти. Особливо вражає режим Ultra, який залучає координаційні підагенти для прискорення складних процесів, піднімаючи показник до 91,9%. Це фактично стає найвищим публічним результатом у цьому тесті.
Водночас результати на інших тестах виглядають неоднозначно. Наприклад, у безпековому пакеті ExploitBench модель Sol демонструє продуктивність рівня Mythos, але витрачаючи лише третину токенів на вихід. Така компресія витрат є критичною для тривалих агентських циклів, хоча незалежна перевірка цих цифр поки що неможлива через обмежений доступ до моделі.
Порівняння з Claude Fable 5 та економічні чинники
Попри успіхи Sol у термінальних задачах, модель Claude Fable 5 від Anthropic залишає за собою лідерство на бенчмарку SWE-Bench Pro. Цей тест оцінює виправлення реальних помилок у репозиторіях GitHub, де Fable 5 отримала 80,3% проти 58,6% у попередній версії GPT-5.5. Аналітики зазначають, що такий розрив важко подолати одним інкрементальним оновленням.
Економічна модель використання моделей також відрізняється:
- GPT-5.6 Sol пропонує ціни $5 за мільйон вхідних токенів та $30 за вихідні;
- Claude Fable 5 коштує значно дорожче — $10 та $50 відповідно;
- Доступ до Sol обмежений приблизно 20 державними партнерами, тоді як Fable 5 доступна глобально.
Висновок експертів свідчить про те, що для термінальних агентів оптимальним вибором стає Sol, тоді як для складних виправлень на рівні репозиторіїв лідером залишається Claude Fable 5.