Gemini Omni є значним кроком у розвитку генеративного ШІ, оскільки він об'єднує різні типи даних — зображення, аудіо, відео та текст — в єдиний робочий процес. Це дозволяє створювати не просто кліпи, а високоякісні візуальні історії, які ґрунтуються на реальних знаннях Gemini про світ.
Контекст і передісторія
Розвиток мультимодального ШІ завжди був ключовим напрямком. Попередні моделі часто обробляли дані окремо, але Omni дозволяє інтегрувати їх у єдиний промпт. Це означає, що користувач може змішувати різні вхідні дані для створення складного контенту. За словами Koray Kavukcuoglu, CTO Google DeepMind та Chief AI Architect у Google, Omni «об'єднує зображення, аудіо, відео та текст як вхід і генерує високоякісні відео, ґрунтовані на реальних знаннях Gemini про світ».
Деталі події
Omni має три ключові переваги. По-перше, модель покращила інтуїтивне розуміння фізичних сил: гравітації, кінетичної енергії та гідродинаміки. Це дозволяє створювати сцени з більш точними фізичними законами. По-друге, вона використовує існуючі знання Gemini про світ для зв'язку мови, зображень та сенсу, виходячи за межі простого пошуку шаблонів. Наприклад, компанія продемонструвала промпти від пояснювачів з білкового фолдингу у стилі клі-мейшн до треків із реакціями ланцюгової дії.
Нові можливості та обмеження
Окрім генерації відео, Omni розширює сімейство на створення цифрових аватарів. Користувачі можуть записати власний голос і зовнішність, щоб створити відео, що виглядають і звучать як вони самі. Для онбордингу достатньо записати себе та промовити серію чисел. Однак Google свідомо стримує загальнопризначене аудіо- та мовленнєве редагування всередині Omni наразі, оскільки «ми все ще працюємо над тестуванням цього і кращим розумінням того, як ми можемо принести цю можливість користувачам відповідально» — зазначив Kavukcuoglu. Це рішення є відповіддю на обговорення питань з пов’язаною з дипфейками територією беззготного редагування голосу.
Перспективи
Усі відео, створені за допомогою Omni, будуть містити невидимий цифровий водяний знак SynthID від Google за замовчуванням. Цей механізм дозволяє користувачам перевірити, чи був кліп згенерований Omni, через Gemini app, Gemini in Chrome та Google Search. Хоча на старті кліпи Flash-рівня обмежені 10 секундами — це рішення щодо розгортання, а не технічне обмеження моделі. Це значно коротше за максимальні 60 секунд у Sora від OpenAI. Omni є головною моделлю ширшого оголошення на I/O 2026, яке також включало Gemini 3.5 та те, що Sundar Pichai назвав «агентською ерою Gemini». Це свідчить про стратегічний зсув Google у напрямку більш інтелектуальних і автономних ШІ-систем.