Thinking Machines Lab змінює правила гри у голосовому ШІ 🤖

Thinking Machines Lab, стартап, заснований колишнім технічним директором OpenAI Мірою Мураті, представив свій перший дослідницький зразок моделі штучного інтелекту. Ця модель покликана кардинально змінити підхід до голосового ШІ, виводячи його із традиційного шаблону запитання-відповідь. Основний акцент робиться на інтерактивності, яка, як стверджує лабораторія, є тим аспектом, який компанії на кшталт OpenAI розуміють не до кінця.

Нова архітектура обробляє аудіо, відео та текст паралельно у мікросегментах по 200 мс. Завдяки цьому Thinking Machines Lab стверджує, що його модель перевершує GPT-Realtime-2 від OpenAI та Gemini Live від Google за якістю взаємодії та низькою затримкою.

Ця стаття детально розглядає концепцію Interaction Models — моделей ШІ, які обробляють взаємодію нативно, а не через зовнішні допоміжні системи. Головна ідея полягає в тому, що інтерактивність має масштабуватися разом із розумністю моделі, а не розглядатися як другорядне доповнення.

Обмеження сучасних систем голосового ШІ

Сучасні системи реального часу, такі як GPT-Realtime чи Gemini Live, постійно приймають аудіопотік. Однак сама мовна модель ніколи не бачить його безпосередньо. Згідно з Thinking Machines Lab, перед моделлю розташовується «пристрій керування» (harness) з окремих компонентів. До них належать детектори активності голосу, які вирішують, коли закінчується черга спікера.

Тільки після того, як завершене висловлювання буде передано моделі, вона генерує повну відповідь. Протягом мовлення її сприйняття «застигає», і вона не отримує нової інформації, доки не закінчить або не буде перервана. Ці допоміжні компоненти значно менш інтелектуальні, ніж сама модель.

Це призводить до того, що поведінка, яка визначає справжню розмову, просто не працює:
* Неможливість проактивно втручатися («перерви мене, якщо я скажу щось неправильно»).
* Відсутність реакції на візуальні сигнали («скажи мені, коли я написав помилку»).
* Неможливість одночасного мовлення, що було б корисним для живого перекладу.

Лабораторія посилається на «Гірку лекцію» Баттона і стверджує, що ці вручну створені системи зрештою програють перед розвитком загальних можливостей ШІ.

Принцип мірко-ходів, синхронізованих у часі

Interaction Models від Thinking Machines замінюють цей «пристрій керування» моделлю, яка обробляє аудіо та відеопотік напряму, а не отримує попередньо сегментовані висловлювання. Цей підхід схожий на моделі повного дуплексу (наприклад, Moshi чи Nemotron VoiceChat), які працюють у подібному чергуванні, але є меншими за масштабом і зосереджені на низькій затримці, а не на бенчмарках інтелекту.

Ключовий прорив полягає в тому, що команда називає time-aligned micro-turns (мікрокоди, синхронізовані у часі). Модель безперервно обробляє 200 мс вхідних даних і генерує 200 мс вихідних даних. При цьому потоки токенів працюють чергуючись. Вхід та вихід більше не відбуваються послідовно, а ділять один і той самий цикл годинника.

Це усуває штучні межі черг, дозволяючи моделі самостійно вирішувати: мовчати, втрутитися чи говорити паралельно з користувачем. Аудіо та зображення не попередньо обробляються через великі автономні кодери, а подаються безпосередньо у трансформер із мінімальною підготовкою. Це економить затримку, хоча й може обмежити здатність моделі фіксувати дрібні візуальні деталі, як-от текст.

Архітектура для високої швидкості та глибини аналізу

Хоча модель реального часу має виклик: якщо потрібно відповідати кожні 200 мс, неможливо одночасно витрачати хвилини на міркування чи пошук у мережі, Thinking Machines знаходить рішення. Воно поєднує швидку інтерактивну модель із другою, асинхронною фоновою моделлю.

Ця друга модель відповідає за більш тривалі завдання, такі як глибоке міркування або пошук інформації в Інтернеті. Таким чином, система забезпечує миттєву реакцію на рівні діалогу, зберігаючи при цьому можливість виконувати складний аналіз у фоновому режимі.

Попри технічні обіцянки та значний прогрес, стартап все ще стикається з тиском. Останнім часом кілька ключових співробітників залишили компанію, що свідчить про виклики, які стоять перед Thinking Machines Lab у процесі впровадження своїх інноваційних Interaction Models.