EMO: AI-модель з майже повною ефективністю на 12.5% експертів

Дослідники з Allen Institute for AI та Каліфорнійського університету в Берклі (UC Berkeley) розробили нову архітектуру штучного інтелекту під назвою EMO. Ця модульна мовна модель здатна зберігати майже повну продуктивність, використовуючи лише 12.5% від загальної кількості своїх спеціалізованих модулів, що значно підвищує ефективність та гнучкість.

#ШІ #AI #машинне навчання #Allen Institute for AI #UC Berkeley #модульні моделі #Mixture-of-Experts

В останні роки архітектури Mixture-of-Experts (MoE) стали стандартом у великих мовних моделях, таких як DeepSeek-V4 та Qwen3.5. Ці моделі активують лише невелику кількість "експертів" для обробки кожного токена, дозволяючи масштабуватися до сотень мільярдів параметрів без надмірного збільшення обчислювальних витрат. Однак, повнорозмірна модель все ще вимагає значного обсягу пам'яті, оскільки різні завдання вимагають активації різних експертів, унеможливлюючи завантаження лише частини моделі для конкретних функцій, як-от математика чи кодування.

Деталі події

На відміну від стандартних MoE моделей, чиї експерти часто зосереджуються на поверхневих мовних закономірностях (прийменники, пунктуація), модель EMO (Expert Modularization) була розроблена для спеціалізації на предметних областях. Команда з Allen Institute for AI та Каліфорнійського університету в Берклі (UC Berkeley) використала "межі документів" як сигнал для навчання. Це означає, що токени в межах одного документа, як правило, належать до тієї ж предметної області, що змушує EMO вибирати активних експертів із спільного пулу, який формується на основі найбільш часто обираних маршрутизатором переваг по всьому документу.

Під час тренування EMO, яке проводилося на корпусі OLMoE з 1 трильйона токенів, було застосовано дві ключові корекції для стабілізації процесу. По-перше, балансування навантаження розраховувалося глобально, а не локально, щоб уникнути конфлікту між згрупуванням токенів та їх розподілом між експертами. По-друге, розмір пулу документів варіювався випадковим чином, навчаючи модель працювати з підгрупами експертів різного розміру під час інференсу. Це дозволило EMO з 1 мільярдом активних та 14 мільярдами загальних параметрів успішно конкурувати з ідентично навченими стандартними MoE.

Перспективи

Здатність EMO підтримувати високу продуктивність при значному скороченні кількості активних експертів свідчить про перспективний напрямок у розвитку AI. Це може призвести до появи більш ефективних та адаптованих моделей, які вимагають менше ресурсів для розгортання та роботи, що є критично важливим для широкого впровадження штучного інтелекту в різних галузях. Такі інновації прокладають шлях до майбутнього, де AI стане ще доступнішим та інтегрованішим у повсякденне життя.

Контекст для України

Для українських AI-стартапів, таких як Reface, Grammarly чи MacPaw, розробка EMO відкриває нові можливості для оптимізації та масштабування їхніх продуктів. Можливість "відсікати" надлишкові експерти та зосереджуватися на конкретних предметних областях може значно знизити витрати на інференс та вимоги до пам'яті. Це також може сприяти створенню більш спеціалізованих AI-рішень для україномовного контенту, адаптуючи моделі для кращого розуміння української лінгвістики та культурних нюансів. Доступність таких моделей або їх API для українських розробників може пришвидшити інновації та інтеграцію AI у різні сектори економіки.

Деталі події

Перспективи

Контекст для України

Свіжі новини у нашому Telegram