Розвинений бенчмарк дозволяє виміряти, наскільки ефективно AI може використовувати реальні вразливості у JavaScript-двигуні V8. Цей двигун є основою для таких популярних систем, як Chrome, Edge та Node.js. Тестування не обмежується лише спрацюванням помилки; воно оцінює прогрес моделі по п'яти рівнях складності, аж до виконання довільних команд на цільовій системі.
Порівняння продуктивності: Mythos випереджає GPT-5.5
Згідно з дослідженням, Claude Mythos Preview продемонстрував середній бал 9.90 із 16 і досяг найвищого рівня експлуатації у 21 із 41 вразливості. Натомість GPT-5.5 від OpenAI показав значно нижчий результат — лише 5.51 бали, досягнувши верхнього рівня лише двічі. Ця різниця стає ще більш помітною у повністю автономному режимі роботи: Mythos набрав 9.55 балів, тоді як GPT-5.5 через Codex показав лише 4.30.
Економічний аспект та компетентність моделі
Хоча Claude Mythos виявився більш здібним у тестуванні вразливостей, його вартість була надзвичайно високою. Повний тестовий прогін Mythos за 122 епізоди коштував близько $36,428. Це значно перевищує витрати на GPT-5.5 через Codex, який виконав 123 епізоди приблизно за $3,075 — тобто в дванадцять разів дешевше.
Що це означає для України
Для українських AI-стартапів та розробників ця новина є важливим сигналом про зростання рівня автономності ШІ у критично важливих сферах, як-от кібербезпека. Здатність моделей створювати експлойти свідчить про те, що штучний інтелект стає потужним інструментом не лише для розробки, але й для виявлення слабких місць у програмному забезпеченні. Українські компанії, які працюють з глобальними технологіями та API, повинні враховувати ці ризики і посилювати внутрішній аудит своїх систем. Це також стимулює українських фахівців до глибокого вивчення кібербезпеки та використання передових AI-інструментів для захисту національної інфраструктури.
Перспективи розвитку автономного ШІ
Дослідники зазначають, що протестовані вразливості є публічно відомими. Однак бенчмарк також включає вразливості без публічних звітів. Це свідчить про потенціал моделей для виявлення нових слабких місць. Майбутнє автономного ШІ передбачає не лише підвищення продуктивності, але й пошук балансу між ефективністю та економічною доцільністю використання таких потужних інструментів.