ШІ Читати оригінал на Amd 1 хв читання 0

AMD представила прорив: як локальні LLM працюють без латентності

AMD представила значний прорив у сфері локальних великих мовних моделей (LLM), який вирішує ключову проблему латентності в багатоходових чатах. Завдяки механізму повторного використання кешу K-V, моделі можуть підтримувати низьку затримку навіть при дуже довгій історії розмови. Це дозволяє створювати більш функціональні AI PC застосунки — від приватних помічників до складних кодових асистентів. Інновація значно знижує обчислювальне навантаження, роблячи локальний інференс практично постійним за часом.

Ноутбук із візуалізацією локальної LLM розмови та мережею даних біля чипа AMD Ryzen AI і блоку KV Cache на робочому столі.
Ноутбук із візуалізацією локальної LLM розмови та мережею даних біля чипа AMD Ryzen AI і блоку KV Cache на робочому столі. · Джерело зображення: Amd

Як повідомляє Amd, розвиток локальних великих мовних моделей відкриває новий клас AI PC застосунків. Ці рішення включають приватні помічники для роботи з документами, асистенти програмістів та доменної-специфічні копілоти. Запуск інференсу безпосередньо на пристрої зменшує залежність від мережевого підключення і дозволяє зберігати дані про промпти та застосунок локально.

Проблема латентності в діалогах

У типовій чатовій сесії кожен новий повідомлення користувача додається до вже існуючої історії. Без ефективного механізму збереження контексту модель змушена багаторазово обробляти всю розмову перед генерацією відповіді. Ця повторна обробка відбувається під час фази префілу (prefill), коли модель перетворює вхідні токени у внутрішній стан уваги, необхідний для генерації.

Коли історія розмови зростає, префіл стає значним чинником загальної латентності. У моделях на основі трансформерів механізм само-уваги вимагає від моделі обчислення трьох матриць для кожного токена: Query (Q), Key (K) та Value (V). Матриці K і V є найбільш ресурсомісткою частиною, оскільки їх потрібно обчислити для кожного токена в контексті перед генерацією будь-якого виводу.

Механізм повторного використання кешу K-V

Кеш Key-Value (KV cache) — це просто збережений результат цих обчислень. Замість того, щоб перебудовувати весь контекст розмови для кожного запиту, застосунок використовує механізм повторного використання.

  • Без кешу: При кожному ході моделі повторно обчислює K та V для всіх N токенів. Латентність зростає пропорційно довжині розмови.
  • З кешем K-V: Після першого ходу зберігаються попередньо обчислені K та V. На наступних ходах модель обробляє лише новододані токени, читаючи збережений стан для всього, що було раніше. Це значно зменшує надмірну роботу.

AMD Ryzen™ AI Software 1.7.1 реалізує цю функціональність через API безперервного декодування (continuous decoding) ONNX Runtime GenAI. Цей підхід дозволяє досягти майже постійної латентності на кожен хід, при цьому знижуючи енергоспоживання протягом тривалих сесій.

Таким чином, інтеграція механізмів кешування забезпечує критично важливий стрибок у продуктивності локальних LLM, перетворюючи їх із лабораторних експериментів на практичні інструменти для кінцевих користувачів.

Контекст для України

Для українських AI-стартапів, що працюють над локальними рішеннями або edge computing, цей прорив критично важливий. Здатність запускати складні LLM без постійного доступу до хмарних сервісів знижує операційні витрати та підвищує безпеку даних. Це особливо актуально для компаній, які розробляють продукти з високими вимогами до приватності користувачів. Наприклад, українські розробники можуть інтегрувати ці оптимізації у свої локальні асистенти, роблячи їх доступними навіть в умовах нестабільного інтернет-з'єднання.

Часті запитання

Чому латентність зростає у довгих чатах з LLM?
У типовій сесії модель повторно обробляє всю історію розмови під час фази префілу. Це відбувається, оскільки механізм само-уваги вимагає обчислення матриць K та V для кожного токена в контексті.
Що таке кеш Key-Value (KV cache) і як він допомагає LLM?
KV cache — це збережений результат обчислень матриць K та V. Замість повторної перебудови всього контексту, застосунок використовує цей механізм для обробки лише новододаних токенів на наступних ходах.
Для чого можна використовувати локальні LLM з цим проривом AMD?
Ці рішення дозволяють створювати функціональні AI PC застосунки. До них належать приватні помічники для роботи з документами, асистенти програмістів та доменно-специфічні копілоти.
Telegram

Свіжі новини у нашому Telegram

Отримуйте миттєві сповіщення про нові публікації в рубриці «ШІ»

@proaiandevenmore