ШІ Читати оригінал на Yellow 1 хв читання 0

OpenAI випустила модель GPT-5.6 Sol для кодинг-агентів

Компанія OpenAI представила нову модель GPT-5.6 Sol, яка продемонструвала результати 88,8% на ключовому бенчмарку Terminal-Bench 2.1 для кодинг-агентів. Попри високі показники у складних термінальних операціях та режимі Ultra, модель поки що залишається в обмеженому доступі для державних партнерів. Водночас конкурент від Anthropic — Claude Fable 5 — зберігає лідерство у вирішенні реальних розробницьких завдань на GitHub, демонструючи значну перевагу над попередніми версіями GPT.

Крупний план екрана сучасного смартфона з білою іконкою ChatGPT на яскравому рожевому фоні.
Крупний план екрана сучасного смартфона з білою іконкою ChatGPT на яскравому рожевому фоні. · Джерело зображення: Yellow

За даними Yellow, останні порівняння продуктивності моделей від OpenAI та Anthropic виявили цікавий розподіл ніш у сфері програмування. Нова лінійка GPT-5.6 від OpenAI включає три рівні, де флагманська модель Sol стає основним інструментом для роботи з командним рядком та координації підагентів.

Показники продуктивності та архітектурні особливості

Модель GPT-5.6 Sol досягла результату 88,8% на Terminal-Bench 2.1, де оцінюється здатність агентів планувати дії, ітерувати та використовувати інструменти. Особливо вражає режим Ultra, який залучає координаційні підагенти для прискорення складних процесів, піднімаючи показник до 91,9%. Це фактично стає найвищим публічним результатом у цьому тесті.

Водночас результати на інших тестах виглядають неоднозначно. Наприклад, у безпековому пакеті ExploitBench модель Sol демонструє продуктивність рівня Mythos, але витрачаючи лише третину токенів на вихід. Така компресія витрат є критичною для тривалих агентських циклів, хоча незалежна перевірка цих цифр поки що неможлива через обмежений доступ до моделі.

Порівняння з Claude Fable 5 та економічні чинники

Попри успіхи Sol у термінальних задачах, модель Claude Fable 5 від Anthropic залишає за собою лідерство на бенчмарку SWE-Bench Pro. Цей тест оцінює виправлення реальних помилок у репозиторіях GitHub, де Fable 5 отримала 80,3% проти 58,6% у попередній версії GPT-5.5. Аналітики зазначають, що такий розрив важко подолати одним інкрементальним оновленням.

Економічна модель використання моделей також відрізняється:

  • GPT-5.6 Sol пропонує ціни $5 за мільйон вхідних токенів та $30 за вихідні;
  • Claude Fable 5 коштує значно дорожче — $10 та $50 відповідно;
  • Доступ до Sol обмежений приблизно 20 державними партнерами, тоді як Fable 5 доступна глобально.

Висновок експертів свідчить про те, що для термінальних агентів оптимальним вибором стає Sol, тоді як для складних виправлень на рівні репозиторіїв лідером залишається Claude Fable 5.

Контекст для України

Для українських розробників та AI-стартапів ситуація з доступом є критичною. Оскільки GPT-5.6 Sol поки що перебуває у режимі обмеженого прев'ю для державних структур, українські фахівці не зможуть тестувати її можливості безпосередньо. Натомість доступність Claude Fable 5 дозволяє локальним компаніям інтегрувати її в робочі процеси вже зараз. Висока вартість токенів Anthropic може стати бар'єром для малого бізнесу, але перевага у вирішенні складних задач на GitHub робить її пріоритетною для українських аутсорс-команд, які працюють з великими кодовими базами.

Часті запитання

Яка вартість використання моделі GPT-5.6 Sol?
Ціна використання моделі становить $5 за мільйон вхідних токенів та $30 за вихідні токени. Це значно дешевше, ніж у конкурента Claude Fable 5, яка коштує $10 та $50 відповідно.
Хто може використовувати модель GPT-5.6 Sol зараз?
На даний момент доступ до моделі обмежений приблизно 20 державними партнерами. На відміну від неї, модель Claude Fable 5 від Anthropic доступна для використання глобально.
Telegram

Свіжі новини у нашому Telegram

Отримуйте миттєві сповіщення про нові публікації в рубриці «ШІ»

@proaiandevenmore