ШІ Читати оригінал на ITC.ua 2 хв читання 0

Gemini 3.5 від Google: безперервний переклад мовлення у реальному часі

Google представила Gemini 3.5 Live Translate — новітню модель для перекладу мовлення в реальному часі, яка знаменує собою важливий прорив у сфері комунікаційних технологій. Модель підтримує понад 70 мов та забезпечує генерацію природного аудіоперекладу з збереженням інтонації й темпу мовця. На відміну від традиційних систем, що чекають завершення речення, Gemini 3.5 безперервно генерує мовлення, створюючи плавний аудіопотік. Ця функція вже розгортається в застосунках Google Translate для Android та iOS, відкриваючи нові можливості для глобальної взаємодії.

Екран мобільного пристрою відображає яскравий інтерфейс з логотипом Google і назвою штучного інтелекту Gemini.
Екран мобільного пристрою відображає яскравий інтерфейс з логотипом Google і назвою штучного інтелекту Gemini. · Джерело зображення: ITC.ua

Як повідомляє ITC.ua, Google оголосила про запуск Gemini 3.5 Live Translate — передової моделі, призначеної для миттєвого перекладу мовлення у реальному часі. Ця технологічна імплементація значно розширює можливості комунікації на міжнародному рівні, виходячи за рамки попередніх обмежень.

Технологічний стрибок: від покрокового до безперервного перекладу

Ключовою перевагою Gemini 3.5 є її здатність генерувати «плавне, природне за звучанням перекладене мовлення». Модель не лише розпізнає більше ніж 70 мов, але й зберігає важливі паралінгвістичні елементи — інтонацію, темп та висоту голосу. Це вирішує проблему «незручних пауз», характерних для систем покрокового перекладу.

Google пояснює цей механізм так: «3.5 Live Translate безперервно генерує мовлення, балансуючи між необхідністю чекати на контекст для покращення якості та потребою перекладати негайно, щоб залишатися синхронізованою з мовцем». Цей баланс є критично важливим для забезпечення реального часу в умовах розмов.

Інтеграція в екосистему Google та питання безпеки

Функціонал Gemini 3.5 Live Translate поступово інтегрується у різні продукти компанії. Наприклад, у застосунку Google Translate для Android з'явився новий «режим прослуховування», що дозволяє користувачам чути переклад через динамік телефону під час розмов без навушників. У Google Meet підтримка мов обмежувалася лише п’ятьма мовами; тепер модель відкриває можливість понад 2000 мовних комбінацій в одній зустрічі.

Для розробників технологія доступна через Gemini Live API та Google AI Studio у публічному попередньому перегляді. Це дозволяє інтегрувати миттєвий усний переклад у міжнародні конференції, онлайн-уроки та багатомовні дзвінки. Щодо безпеки контенту, Google впровадила механізм SynthID. Цей непомітний водяний знак безпосередньо вбудовується в аудіовихід і забезпечує можливість виявлення будь-якого контенту, створеного штучним інтелектом, що є важливим інструментом проти дезінформації.

Модель також демонструє високу стійкість до зовнішніх факторів: вона автоматично визначає мову співрозмовника та зберігає стабільну роботу навіть у шумному середовищі. Ширший запуск функціоналу планується на пізніше цього року, після закритого попереднього перегляду для бізнес-клієнтів Google Workspace.

Таким чином, Gemini 3.5 Live Translate не просто покращує якість перекладу; вона трансформує сам процес міжнародної комунікації, роблячи його безперервним та адаптивним до реальних умов використання.

Контекст для України

Для українських розробників та стартапів ця технологія значно знижує бар'єр для міжнародної співпраці. Доступність Gemini Live API дозволяє інтегрувати високоякісний переклад у власні продукти, що критично важливо для компаній, які працюють з глобальними клієнтами. Це особливо актуально для українських IT-фахівців, які беруть участь у міжнародних конференціях чи проводять онлайн-уроки. Хоча прямих змін у ціноутворенні API ще немає, розширення мовного охоплення підвищує релевантність технології для всіх сегментів ринку.

Часті запитання

Чим Gemini 3.5 Live Translate відрізняється від традиційних систем перекладу?
На відміну від покрокових систем, Gemini 3.5 безперервно генерує аудіопотік. Це дозволяє моделі залишатися синхронізованою з мовцем і зберігати паралінгвістичні елементи, такі як інтонація та темп.
Як розробники можуть інтегрувати цю технологію в свої продукти?
Технологія доступна через Gemini Live API та Google AI Studio у публічному попередньому перегляді. Це дає змогу миттєво вбудовувати усний переклад у міжнародні конференції чи онлайн-уроки.
Telegram

Свіжі новини у нашому Telegram

Отримуйте миттєві сповіщення про нові публікації в рубриці «ШІ»

@proaiandevenmore