За даними A16z, візуальний штучний інтелект протягом останніх років переважно оцінювався за якістю пікселів. Дифузійні моделі успішно перетворювали текстові промпти на високореалістичні зображення та відео, ставлячи їх у пряме порівняння з роботою Photoshop чи фотоапарата. Однак для багатьох візуально орієнтованих завдань — як-от графічний дизайн, UI/UX або 3D-моделювання — кінцевий продукт користувача не обмежується лише фінальним зображенням.
Від пікселів до структури: дві парадигми генерації
Професіонали потребують артефактів, які можна постійно ітерувати на основі зворотного зв'язку та нових ідей. Дизайнеру потрібні шари та компоненти; анімоватору — криві таймінгу та ключові кадри. Найцікавіші сучасні візуальні інструменти перестають прагнути створити кінцевий вихідний файл, замість цього вони генерують вихідний код, що лежить в основі цього зображення.
Існує два основних підходи до візуальної генерації. Перший — це піксельною-нативна генерація. Ці системи створюють зображення або відео безпосередньо у латентному просторі, і вони чудово справляються з текстурою, атмосферою та реалізмом. Якщо мета — створити кінематографічний кадр чи фотореалістичну картинку, дифузійні моделі залишаються домінуючим методом.
Другий підхід — це код-нативна генерація. Тут модель не виробляє пікселі напряму; вона створює програму, яка їх генерує. Ця програма може бути SVG-файлом, макетом HTML/CSS, React-компонентом, Lottie JSON або сценарієм для Blender. Хоча кінцевий результат все одно є пікселями, джерело істини — це структуроване представлення.
Чому код є кращим субстратом для візуальних проблем
Ця відмінність критично важлива, оскільки виробничі workflow дуже залежать від того, що відбувається після генерації. Згенероване зображення — це лише вихідний продукт; згенерована візуальна програма — це артефакт, який можна редагувати, повторно використовувати та версіонувати.
Розглянемо приклад логотипу: якщо модель генерує растрове зображення і одна крива виходить неправильно, користувач змушений маскувати його або перемальовувати вручну. Натомість, якщо вихідний файл — SVG, дизайнер може безпосередньо відредагувати шлях, примітив чи градієнт. У сфері UI-дизайну це означає, що замість простого скріншоту, який є лише натхненням, дизайнери отримують HTML/CSS або React. Це дозволяє їм інспектувати DOM, підключати реальні компоненти та перевіряти адаптивність.
Це також має велике значення для обчислень під час тестування (test-time compute). У піксельною-нативній генерації кожен спроба — це новий кидок кубика. Натомість, код-нативна система дозволяє моделі реагувати на зворотний зв'язок не глобально, а структурно, що забезпечує високу ефективність у вирішенні чітко визначеної та валідаційної кодової задачі.
Таким чином, для підмножини візуальних завдань ми вчимося переосмислювати задачу генерації як завдання програмування, що забезпечує надзвичайно високу ефективність у робочому процесі.