GPT-5.4 та Gemini часто помиляються у джерелах: новий тест CiteVQA

Сучасні великі мовні моделі демонструють високу точність у розв'язанні логічних завдань, проте їхня здатність коректно працювати з документами у форматі PDF залишається вразливим місцем. Нове дослідження запровадило термін attribution hallucination (галюцинація атрибуції) — це стан, коли нейромережа правильно відповідає на запитання, але вказує на хибні фрагменти тексту як на докази. Для перевірки цього явища було створено бенчмарк CiteVQA, який фокусується на здатності ШІ точно цитувати першоджерела. Для таких галузей, як право, медицина чи фінансовий аудит, де кожне твердження вимагає верифікації, подібні помилки роблять використання ШІ ризикованим без ретельного контролю з боку людини. Перший абзац аналізу підкреслює, що здатність моделі «знати» відповідь не дорівнює здатності знайти її в конкретному документі, що є критичним для корпоративного сектору.

Деталі дослідження CiteVQA

Бенчмарк CiteVQA висуває жорсткі вимоги до моделей: вони мають не просто вказати сторінку документа, а надати точний маркер на рівні конкретного абзацу, таблиці або графічного елемента. Тестовий набір даних включає 1 897 запитань до 711 складних PDF-документів, середній обсяг яких становить понад 40 сторінок. Це значно складніше за стандартні тести, як-от DocVQA, де аналізуються переважно короткі фрагменти тексту.

Для оцінки вчені розробили автоматизований пайплайн, що використовує методику видалення доказів (evidence ablation). Система перевіряє, чи дійсно фрагмент, на який посилається ШІ, є необхідним для формування правильної відповіді. Якщо модель посилається на текст, без якого відповідь все одно була б можливою, це вважається помилкою атрибуції.

Порівняння ефективності моделей

Результати тестування 20 сучасних систем продемонстрували значний розрив між якістю відповіді та точністю її обґрунтування. Наприклад, модель GPT-5.4 показала високий результат 87,1 бала за змістовність відповідей, проте її оцінка впала до 59 балів у метриці Strict Attributed Accuracy (SAA). Це означає, що у значній частині випадків модель просто «вгадувала» відповідь на основі своїх знань, не знаходячи її в документі.

Gemini-3.1-Pro-Preview від Google стала лідером тесту з показником 76 балів.
Відкрита модель Qwen3-VL-235B-A22B набрала лише 22,5 бала за точність цитування.
Більшість компактних open-source моделей не змогли подолати поріг у 10 балів.

Цікаво, що навіть пошук потрібної сторінки залишається проблемою для багатьох систем. Якщо моделі серії Gemini 3 знаходять правильну сторінку у 87% випадків, то найпотужніші відкриті аналоги справляються із цим лише у 58% випадків.

Наслідки для індустрії

Дослідники стверджують, що використання слабких моделей у регульованих індустріях є надзвичайно ризикованим. Коли ШІ «вигадує» докази для правильних тверджень, це створює ілюзію надійності, яку важко перевірити під час швидкого перегляду. "Те, що мовна модель правильно відповідає на питання щодо PDF, ще не означає, що вона дійсно знайшла відповідь там, де стверджує", — зазначають автори дослідження з Peking University.

У майбутньому розробникам доведеться змінити підходи до навчання архітектур, щоб підвищити увагу до контексту (context recall). Без вирішення проблеми галюцинацій атрибуції повноцінне впровадження ШІ у складні юридичні чи наукові процеси залишатиметься обмеженим, а потреба у верифікації кожної цитати людиною нівелюватиме переваги автоматизації.

Для української IT-спільноти та стартапів, таких як Grammarly або MacPaw, результати бенчмарку CiteVQA є важливим сигналом для вдосконалення систем RAG (Retrieval-Augmented Generation). Оскільки в Україні стрімко розвиваються сервіси автоматизації юридичного та бухгалтерського документообігу, розробникам варто звернути увагу на Gemini-3.1-Pro-Preview як на найбільш надійний інструмент для роботи з довгими PDF-файлами. Водночас результати підкреслюють, що використання open-source моделей для аналізу українського законодавства чи медичних карток наразі є критично небезпечним без додаткових шарів перевірки. Доступність API нових моделей Google та Microsoft в Україні дозволяє локальним командам вже зараз інтегрувати складні механізми верифікації посилань для підвищення довіри користувачів.

GPT-5.4 та Gemini часто помиляються у джерелах: новий тест CiteVQA

Деталі дослідження CiteVQA

Порівняння ефективності моделей

Наслідки для індустрії

Контекст для України

Свіжі новини у нашому Telegram