Обробка запитів до великих мовних моделей вимагає складного циклу: інформація виходить із пам'яті, проходить через CPU для попередньої обробки, потім надсилається на GPU для важких обчислень і повертається назад. Цей процес повторюється для кожного слова, яке генерує ШІ. Як повідомляє TechCrunch, це структурна неефективність, яка змушує використовувати одні з найдорожчих та найбільш енергоємних чипів на ринку при кожному запиті.
Деталі події
XCENA, компанія з офісами в Південній Кореї та США, розробила чип MX1. Цей чип підключається до CPU через CXL (Compute Express Link) — це спеціальний високошвидкісний канал між процесором і пам'яттю. Замість того, щоб постійно переміщувати дані між різними компонентами, MX1 обробляє інформацію безпосередньо в модулі пам’яті, приносячи обчислення до даних. Це фундаментально змінює підхід до архітектури ШІ.
За словами Jin Kim, генерального директора XCENA, «CPU та GPU ставали розумнішими протягом десятиліть. Пам'ять ніколи цього не робила. XCENA прагне це змінити». Компанія стверджує, що те, що раніше вимагало 10 серверів, потенційно може працювати на одному. Чип MX1 бере на себе завдання оркестрації даних, управління KV cache (система збереження контексту попередньої розмови) та кешування даних — функції, які традиційно виконувалися CPU.
- Зменшення витрат: Ефективне використання пам'яті може призвести до сотень мільйонів доларів економії для гіперскалерів.
- Технологічний прорив: MX1 обробляє дані на рівні пам’яті, уникаючи дорогих "round trips" між CPU та GPU.
- Стратегічна ніша: XCENA фокусується на енергоємному шарі пам'яті, а не лише на тренуванні моделей, як це роблять виробники NPU.
Компанія орієнтується на гіперскалерів — великі технологічні компанії, що витрачають десятки мільярдів доларів щорічно на AI-інфраструктуру. Хоча MX1 поки є прототипом, масове виробництво чипів заплановано на кінець 2026 року, а початок генерації доходів очікується у 2027 році. Конкурентами XCENA вважаються Astera Labs та Marvell.
Перспективи
XCENA ставить свою бізнес-модель на тезу, що «інференс — це не лише проблема обчислень; це все більше проблема масштабування пам'яті». Цей фокус свідчить про зміщення індустрії від чистого збільшення потужності GPU до оптимізації всього стеку даних. Успіх MX1 може стати ключовим фактором у зниженні бар’єрів для масового впровадження ШІ-рішень.
EVERYTHING