За даними News, дослідники з MIT та MIT-IBM Computing Research Lab створили ChartNet — комплексний набір даних, який значно покращує можливості vision-language models (VLMs) у сфері інтерпретації графіків. Хоча сучасні моделі можуть виконувати завдання природної мови та аналізу зображень, вони часто стикаються з труднощами при інтеграції візуальних, числових та лінгвістичних даних, що є критичним для фінансових та наукових звітів.
Вирішення проблеми: синтетичний підхід
Для подолання цього «вузького місця» як навчальних даних дослідники застосували новий метод генерації. ChartNet містить понад 1 мільйон різноманітних графіків, кожен з яких кодує необхідні візуальні, мовні та числові компоненти. Цей підхід дозволяє моделям не просто бачити зображення, а й розуміти інформацію, що в них представлена.
Переваги відкритих моделей
Використовуючи ChartNet для навчання серії open-source VLMs, дослідники продемонстрували значні результати. Ці менші моделі часто перевершують за якістю вилучення даних та узагальнення графіків комерційні аналоги, які є набагато більшими за обсягом. Це відкриття має прямий вплив на економіку: воно дає змогу невеликим фірмам з обмеженим бюджетом легше інтегрувати AI-інструменти у свій робочий процес.
- ChartNet слугує «одною зупинкою» для розуміння графіків, охоплюючи широкий спектр завдань.
- Набір даних вирішує проблему дефіциту високоякісних навчальних матеріалів, які раніше були головним бар'єром у розвитку VLMs.
- Це сприяє розробці менших моделей, що не вимагають «нескінченної кількості обчислень».
«Ми розробили ChartNet як універсальний ресурс для розуміння графіків, який охоплює практично все, що може знадобитися AI-моделі та фахівцю, який її навчає», — за словами Jovana Kondic, аспірантки MIT та співавторки дослідження. Вона підкреслює важливість досягнення високої продуктивності за допомогою менших архітектур.
Прогноз для бізнесу
Як повідомляє News, аналіз графіків є критичним завданням у практично кожній галузі, особливо в фінансах. Якщо VLMs зможуть надійно витягувати з графіків інформацію про тренди та тенденції, це значно прискорить низку подальших робочих процесів. Таким чином, ChartNet не лише покращує наукові дослідження, але й трансформує бізнес-аналітику, роблячи її доступнішою для ширшого кола користувачів.