Досягнення AGI (Artificial General Intelligence) давно перетворилося з наукової фантастики на об'єкт реальних досліджень. Однак, як зазначає Demis Hassabis у своєму інтерв’ю для Y Combinator, шлях до цього етапу вимагає подолання кількох фундаментальних бар'єрів. Сучасні великі мовні моделі (LLMs) демонструють вражаючі можливості завдяки масштабному попередньому навчанню та методам RLHF (Reinforcement Learning from Human Feedback). Проте ці підходи мають свої обмеження, які не дозволяють їм повністю імітувати когнітивні здібності людини.
Критичні компоненти для AGI
Hassabis чітко окреслив три ключові аспекти, яких бракує сучасним системам. По-перше, це необхідність безперервного навчання. Сучасні моделі є фактично «статичними» — вони не здатні інтегрувати нові знання в реальному часі, як це робить людський мозок. По-друге, це проблема довгострокового міркування та стабільності поведінки. Нарешті, найважливіше — механізми пам'яті. Хоча контекстні вікна можуть сягати мільйонів токенів, вони все ж обмежені часом. Наприклад, повсякденна взаємодія або відеозапис може зайняти лише близько 20 хвилин у такому форматі.
Ефективність пам'яті та агентські системи
Для вирішення проблеми пам’яті потрібні більш елегантні механізми, ніж просто «завантаження всього контексту». Потрібен аналог нейробіологічної консолідації досвіду. Demis Hassabis згадав ранній приклад: перший Atari-агент DeepMind у 2013 році вже використовував техніку replay — відтворення досвіду, що було запозичено з досліджень гіпокампа. Однак він вважає, що сучасні підходи все ще є лише тимчасовими конструкціями.
Крім того, Hassabis наголошує, що агенти — це не просто модний тренд, а стратегічний шлях до AGI. Система повинна бути активною: вона має формувати цілі, планувати дії та самостійно вирішувати задачі. Пасивні мовні моделі є лише частиною загальної архітектури; агенти виступають операційною формою інтелекту. Хоча ринок ще не побачив продукту масштабу AAA, створеного повністю агентними системами, засновник DeepMind очікує, що протягом 6–12 місяців з'являться приклади фундаментальної цінності — спочатку через різке зростання продуктивності людей (так званий ефект «1000×»), а потім через підвищення автономності систем.
Роль мультимодальності та дистиляції
Gemini, розроблений Google DeepMind, був задуманий як мультимодальна система від самого початку. Хоча це ускладнило старт порівняно з фокусом лише на тексті, ця стратегія дає значну перевагу. Мультимодальність є критично важливою для побудови так званих world models — внутрішніх симуляцій світу. Це необхідно для робототехніки, автономних систем та цифрових асистентів, які працюють у фізичному середовищі.
З іншого боку, DeepMind також демонструє стратегічну силу через дистиляцію — процес створення компактних версій флагманських моделей. Засновник наголошує: протягом пів року — року після виходу основної моделі її можливості стануть доступні у менших, більш ефективних версіях (Flash-моделях). Ці компактні моделі можуть досягати 90–95% якості флагманів за значно нижчої вартості та з меншою затримкою. Це критичний фактор для масштабування продуктів Google, які обслуговують мільярди користувачів.
Перспективи розвитку ШІ
Прогноз Hassabis свідчить про те, що ми вступаємо у нову наукову еру. Якщо технології пам'яті та агентності будуть успішно інтегровані, AGI стане не віддаленою теорією, а реальністю. Поточний фокус на мультимодальних моделях і їхньому масштабуванні гарантує, що наступне покоління ШІ буде здатним взаємодіяти зі світом у повному сенсі — розуміти просторовий контекст та фізику навколишнього середовища. Це відкриває шлях до створення справді автономних і інтелектуальних систем.
EVERYTHING