Claude Mythos та GPT-5.5 можуть створювати експлойти для браузерів

Дослідники з Carnegie Mellon University створили новий бенчмарк, який оцінює здатність AI-агентів знаходити та експлуатувати реальні вразливості у JavaScript-двигуні V8 від Google. Результати показали значну перевагу моделі Claude Mythos Preview над GPT-5.5 OpenAI, підтверджуючи її високий рівень компетентності у сфері кібербезпеки.

Розвинений бенчмарк дозволяє виміряти, наскільки ефективно AI може використовувати реальні вразливості у JavaScript-двигуні V8. Цей двигун є основою для таких популярних систем, як Chrome, Edge та Node.js. Тестування не обмежується лише спрацюванням помилки; воно оцінює прогрес моделі по п'яти рівнях складності, аж до виконання довільних команд на цільовій системі.

Порівняння продуктивності: Mythos випереджає GPT-5.5

Згідно з дослідженням, Claude Mythos Preview продемонстрував середній бал 9.90 із 16 і досяг найвищого рівня експлуатації у 21 із 41 вразливості. Натомість GPT-5.5 від OpenAI показав значно нижчий результат — лише 5.51 бали, досягнувши верхнього рівня лише двічі. Ця різниця стає ще більш помітною у повністю автономному режимі роботи: Mythos набрав 9.55 балів, тоді як GPT-5.5 через Codex показав лише 4.30.

Економічний аспект та компетентність моделі

Хоча Claude Mythos виявився більш здібним у тестуванні вразливостей, його вартість була надзвичайно високою. Повний тестовий прогін Mythos за 122 епізоди коштував близько $36,428. Це значно перевищує витрати на GPT-5.5 через Codex, який виконав 123 епізоди приблизно за $3,075 — тобто в дванадцять разів дешевше.

Перспективи розвитку автономного ШІ

Дослідники зазначають, що протестовані вразливості є публічно відомими. Однак бенчмарк також включає вразливості без публічних звітів. Це свідчить про потенціал моделей для виявлення нових слабких місць. Майбутнє автономного ШІ передбачає не лише підвищення продуктивності, але й пошук балансу між ефективністю та економічною доцільністю використання таких потужних інструментів.

Контекст для України

Для українських AI-стартапів та розробників ця новина є важливим сигналом про зростання рівня автономності ШІ у критично важливих сферах, як-от кібербезпека. Здатність моделей створювати експлойти свідчить про те, що штучний інтелект стає потужним інструментом не лише для розробки, але й для виявлення слабких місць у програмному забезпеченні. Українські компанії, які працюють з глобальними технологіями та API, повинні враховувати ці ризики і посилювати внутрішній аудит своїх систем. Це також стимулює українських фахівців до глибокого вивчення кібербезпеки та використання передових AI-інструментів для захисту національної інфраструктури.

Порівняння продуктивності: Mythos випереджає GPT-5.5

Економічний аспект та компетентність моделі

Перспективи розвитку автономного ШІ

Контекст для України

Свіжі новини у нашому Telegram