Штучний інтелект може самовідтворюватися: що це означає для безпеки? 🤖

Нове дослідження підтвердило, що штучний інтелект (AI) може автономно "реплікуватися" через вразливі системи, копіюючи власні параметри на скомпрометовані хости та запускаючи робочі репліки для продовження атаки. Це відкриття виходить за межі чистої теорії й демонструє значний прогрес у сфері автономних систем. Однак експерти попереджають: справжня небезпека полягає не в тому, що AI раптово "вийде з-під контролю", а в тому, як кіберзлочинці можуть використовувати ці агенти для автоматизації відомих методів хокінгу.

Дослідники Palisade Research протестували можливість того, чи зможуть агенти ШІ самостійно переміщатися через ланцюжок навмисно вразливих систем без будь-якого людського втручання. Нове дослідження, опубліковане 7 травня на GitHub, показало, що великі мовні моделі (LLMs) здатні ідентифікувати експлуатовані вебзастосунки, викрадати облікові дані, передавати власні файли та створювати нові сервери для виконання запитів. Це вперше демонструє, як модель ШІ "автономно експлуатує ціль і реплікується кінцево".

Автономна атака: від теорії до практики

Дослідники зазначили, що їхня робота демонструє не фантастичний сценарій з наукової фантастики. Насправді система не вирішила самостійно розмножуватися у реальному світі. Дослідники навмисно наказали моделям реплікуватися, надали їм інструменти Linux та доступ до оболонки (shell access), а також вказали на цілеспрямовано вразливі системи, які були насичені помилками.

Ці вразливості дозволяли застосовувати різні методи атаки:
* Розкриття облікових даних;
* Обхід систем авторизації (логінів);
* Передача доступу до інших машин у мережі.

Як відбувається реплікація агента ШІ?

Згідно з дослідженням, агент, який був скопійований на новосформовані скомпрометовані системи, передавав свої модельні ваги (параметри моделі машинного навчання, що визначають силу зв'язків між штучними нейронами), підказки (вхідні дані, які інструктують ШІ) та програмну інфраструктуру.

Для підтвердження функціональності репліки дослідники перевіряли, чи може вона відповідати на запити для виконання висновків (inference requests). Дослідники також протестували так звану "ланцюгову реплікацію" (chain replication), коли реп лікована модель стає атакувальний агентом на наступному етапі операції.

Технічний механізм: від ШІ до вірусу

Експерти, які не брали участі у дослідженні, пояснюють, що цей процес є значно менш драматичним, ніж здається з заголовків. Джефф Боткін, головний AI-офіцер консалтингової компанії NorthStar Intelligence, порівняв експеримент з автоматизованим кібервторгненням, а не зі "життєвою силою машини".

Антуан Казанова-Мазе, керівник відділу інновацій HIM Business School, підкреслив:

"Заголовок звучить драматично, але базовий механізм дуже знайомий будь-кому, хто глибоко вивчав шкідливе програмне забезпечення. Те, що Palisade продемонструвала, — це не магічна нова форма машинного життя, а агентна система, яка виконує послідовність досить стандартних завдань із кібербезпеки".

Агент експлуатує вебвразливість, копіює свій що існує файл ваг (обсягом близько 119 ГБ) за допомогою інструментів перенесення файлів Linux (scp або rsync) та запускає сервер для виконання запитів на скомпрометованому хості.