ШІ • Редакція PROEVERYTHING • 2026-05-29 01:38 • Читати оригінал на The-decoder • 2 хв читання • 18

Anthropic Claude Opus 4.8 обходить GPT-5.5 у бенчмарках

Anthropic випустила Claude Opus 4.8 — нову мовну модель штучного інтелекту, яка, за твердженням компанії, демонструє значні переваги над конкурентами, такими як GPT-5.5 від OpenAI та Gemini 3.1 Pro від Google, у більшості тестових бенчмарків. Цей апгрейд позиціонується не як революційний прорив, а як «скромне, але відчутне покращення», що фокусується на підвищенні чесності моделі та її здатності визнавати власні невизначеності. Крім покращених можливостей у кодуванні та багатодисциплінарному мисленні, Anthropic також представила динамічні воркфлоу і механізм контролю зусиль, що дозволяє користувачам регулювати глибину обробки запиту. Стандартне ціноутворення API залишилося незмінним порівняно з попередньою версією Opus 4.7.

Колонка редакції

Результати на бенчмарках демонструють значний прогрес. Проте слід пам’ятати, що ці результати досягаються у контрольованих умовах. Реальний воркфлоу інженера чи дослідника рідко збігається з ідеальною тестовою гіпотезою. Здатність моделі визнавати невизначеності — це не просто фіча, а необхідний етап до переходу від генерації контенту до справжнього надійного агентського інтелекту.

#Anthropic #ClaudeOpus4.8 #ШІ #GPT-5.5 #AI #бенчмарки

Anthropic Claude Opus 4.8 обходить GPT-5.5 у бенчмарках — ілюстрація до новини в рубриці «ШІ» · Джерело зображення: The-decoder

Як повідомляє The-decoder, Anthropic представила Claude Opus 4.8 як свій новітній флагманський продукт, який перевершує GPT-5.5 та Gemini 3.1 Pro у багатьох категоріях тестування. Однією з найбільш помітних переваг моделі є її покращена чесність: Anthropic зазначає, що Opus 4.8 частіше сигналізує про невизначеності щодо своїх висновків і рідше робить необґрунтовані заяви. Це вирішує загальновизнану проблему ШІ-моделей — схильність до поспішних висновків.

Продуктивність у складних завданнях

Модель демонструє високі показники в критично важливих для інженерії та науки сферах. Зокрема, у завданні агентського кодування (SWE-Bench Pro) Claude Opus 4.8 досягає результату 69.2 відсотка. Це є значним підвищенням порівняно з 64.3 відсотка для попередньої версії Opus 4.7 та 58.6 відсотка для GPT-5.5. Також модель показала найкращі в галузі результати у багатодисциплінарному мисленні (Humanity's Last Exam): вона набирає 49.8 відсотка без використання інструментів і 57.9 відсотка при їх застосуванні.

Нові функції: динамічні воркфлоу та контроль зусиль

Крім самого апгрейду моделі, Anthropic випустила низку функцій, які можуть мати більший вплив на користувачів. Найважливішою є впровадження «динамічних воркфлоу». Це дозволяє Claude Code з Opus 4.8 планувати завдання та запускати сотні паралельних суб-агентів за один сеанс. Ця функція дає змогу обробляти міграції цілих кодових баз, що складаються з сотень тисяч рядків.

Для кращого управління процесом Anthropic додала механізм контролю зусиль (effort control) у інтерфейсах claude.ai та Cowork. Ця функція дозволяє користувачеві самій вирішувати, наскільки глибоко має працювати ШІ над відповіддю:

High (високий): Стандартний рівень обробки.
Extra / Xhigh: Максимальна глибина мислення для складних завдань.
Max: Найбільш інтенсивний режим, що вимагає більше токенів.

Економічні аспекти та стратегічне значення

Щодо ціноутворення API, Anthropic зберегла стандартні ставки порівняно з Opus 4.7: $5 за мільйон вхідних токенів і $25 за мільйон вихідних токенів. Однак для швидкого режиму (Fast Mode), який працює зі швидкістю у 2.5 рази, ціна знижена до $10 за мільйон вхідних токенів та $50 за мільйон вихідних токенів. Ці зміни підкреслюють стратегічний фокус компанії на підвищенні якості моделі при збереженні доступності для розробників, хоча й із чітким розділенням між швидкістю та глибиною обробки.

Контекст для України

Випуск Claude Opus 4.8 створює важливий прецедент на ринку українських AI-стартапів і розробників, оскільки підтверджує глобальну тенденцію до підвищення «чесності» та прозорості великих мовних моделей. Для українських компаній, які інтегрують ШІ в свої продукти (наприклад, у сфері фінансів чи медицини), це означає можливість використовувати більш надійні моделі для критичних завдань, де помилка може мати високу вартість. Доступність API Anthropic дозволяє українським розробникам тестувати передові можливості динамічного кодування та агентських процесів без необхідності локального тренування таких складних архітектур.

Свіжі новини у нашому Telegram

Отримуйте миттєві сповіщення про нові публікації в рубриці «ШІ»

@proaiandevenmore