ШІ 2026-05-12

Thinking Machines Lab: інтерактивність ключ до майбутнього ШІ — 🤖

Thinking Machines Lab: інтерактивність ключ до майбутнього ШІ — 🤖

Thinking Machines Lab, заснована колишнім технічним директором OpenAI Мірою Мураті, представила свій перший дослідницький зразок ШІ-моделі, яка кардинально змінює підхід до голосового спілкування. Ця компанія стверджує, що великі технологічні гіганти, такі як OpenAI та Google, неправильно розуміють ключову роль інтерактивності у природній розмові. Замість того щоб обмежуватися традиційним патерном "питання-відповідь", нова модель обробляє аудіо, відео та текст паралельно в мікросегментах по 200 мс, забезпечуючи плавний, реальний діалог.

Цей прорив дозволяє Thinking Machines Lab не лише конкурувати з GPT-Realtime-2 від OpenAI й Gemini Live від Google за якістю взаємодії, але й перевершувати їх за показниками затримки. Основна філософія компанії полягає в тому, що інтерактивність має масштабуватися разом із розумністю системи, а не розглядатися як другорядне доповнення.

Проблема "роботизованості" сучасних голосових систем

Сучасні системи реального часу, такі як GPT-Realtime або Gemini Live, постійно приймають аудіопотік. Однак сама мовна модель ніколи не бачить його безпосередньо. За словами Thinking Machines Lab, перед моделлю розташована "система підтримки" (harness) з окремих компонентів. До них належить детектор активності голосу, який вирішує, коли закінчується черга спікера. Лише після цього завершене висловлювання передається моделі для генерації відповіді.

Цей процес має критичні недоліки:
* Під час мовлення система "заморожує" сприйняття і не отримує нову інформацію, доки не закінчить або її не перервуть.
* Ці допоміжні компоненти значно менш розумні, ніж сама основна модель.

Це призводить до того, що поведінка, яка визначає справжню розмову — наприклад, проактивне втручання ("перерви мене, якщо я скажу щось неправильно"), реакція на візуальні сигнали або одночасна мова (що корисно для живого перекладу) — просто не працює.

Від "системи підтримки" до інтерактивних моделей

Thinking Machines Lab пропонує рішення, яке замінює цю зовнішню систему підтримки на модель, яка обробляє аудіо- та відеопотік безпосередньо. Цей підхід схожий на моделі повного дуплексу (full-duplex), як Moshi чи Nemotron VoiceChat, які працюють у подібному чергуванні, але є меншими за масштабом і зосереджені на мінімізації затримки.

Ця концепція називається Interaction Models — моделі взаємодії, які обробляють спілкування природно, а не через зовнішні допоміжні механізми.

Годинник у 200 мс замість штучних меж черги

Ключовий прорив, який відрізняє цю архітектуру, — це те, що команда називає time-aligned micro-turns (часово узгоджені мікрочерги). Модель безперервно обробляє 200 мс вхідних даних і генерує 200 мс вихідних даних. При цьому обидва потоки токенів працюють у черговому режимі, а не послідовно.

Це означає, що:
* Введення та виведення більше не відбуваються послідовно. Вони ділять один і той самий цикл годинника.
* Зникають штучні межі черги. Модель сама вирішує, чи залишитися мовчазною, втрутитися або говорити одночасно з користувачем.

Аудіо та зображення не попередньо обробляються через великі окремі кодери, а подаються безпосередньо у трансформер із мінімальною попередньою обробкою. Це значно зменшує затримку, хоча може також обмежити здатність моделі фіксувати дрібні візуальні деталі, як-от текст.

Паралельна робота: взаємодія та глибоке мислення

Хоча модель реального часу є надзвичайно швидкою, вона має виклик: якщо потрібно відповідати кожні 200 мс, неможливо одночасно витрачати хвилини на логічні роздуми чи пошук у мережі.

Thinking Machines Lab розв'язувати цю проблему за допомогою архітектури з двома моделями. Вони поєднують швидку модель взаємодії із другою, асинхронною фоновою моделлю. Ця фонова модель відповідає за складні завдання, такі як глибокий аналіз чи пошук інформації, дозволяючи при цьому підтримувати плавний та миттєвий діалог.

Telegram Logo Читайте нас у Telegram: @proaiandevenmore