Проблема достовірності інформації, яку генерують великі мовні моделі, стає дедалі гострішою з наближенням великих політичних подій у світі. Хоча розробники неодноразово обіцяли покращити точність своїх систем, останні звіти вказують на тривожну тенденцію до погіршення ситуації. Дослідники Tow Center у Columbia Journalism School провели серію контрольованих експериментів із вісьмома провідними пошуковими продуктами на базі штучного інтелекту, подаючи їм 200 актуальних новинних статей від двадцяти різних видавців. Результати виявилися невтішними для індустрії: моделі надавали неправильні або некоректні відповіді у понад 60% випадків, що ставить під серйозний сумнів їхню придатність як надійного джерела новин.
Деталі дослідження точності ШІ
За аналітичними даними Bloomberg, опублікованими 20 травня, популярні сервіси ChatGPT, Claude, Gemini та Grok залишаються критично ненадійними у питаннях, що стосуються політичних новин та виборчих процесів. Зокрема, ChatGPT Search продемонстрував повну точність лише у 28% запитів, тоді як у 57% випадків відповіді були цілком помилковими або вводили в оману. Навіть Perplexity, який маркетологи позиціонують як інструмент дослідницького рівня з високою точністю, помилявся у 37% запитів, що є найнижчим, але все одно значним показником невдач у групі. Моніторинг NewsGuard False Claims зафіксував стрімке зростання кількості неправдивих тверджень: у серпні 2025 року чат-боти повертали фейки у 35% випадків порівняно з 18% попереднього року.
Особливу небезпеку становить вразіливість алгоритмів до зовнішніх маніпуляцій та організованих кампаній впливу. Дослідження NewsGuard показало, що топові генеративні моделі відтворюють тези російської дезінформації приблизно в одній третині випадків, цитуючи підконтрольні Кремлю ресурси як авторитетні та надійні джерела. Це відбувається через так звані "порожнечі в даних" (data voids), механізм яких був детально описаний виданням Lawfare. Коли оригінальна новина має слабке висвітлення в мережі, пропагандистські ресурси швидко заповнюють цей вакуум великою кількістю рерайтів. Сучасні системи RAG (Retrieval-Augmented Generation) часто індексують ці низькоякісні копії, що фактично розриває ланцюжок посилань на реальних журналістів.
Перспективи та виклики
Наступні проміжні вибори у США стануть реальним випробуванням для етики та технологічних можливостей розробників штучного інтелекту. Наразі жодна лабораторія, включаючи OpenAI та Anthropic, не має публічно захищеного плану дій на випадок, коли їхні продукти впевнено та красномовно надають хибну інформацію з фальшивими цитатами. Систематичне помилкове атрибутування цитат та фабрикація неіснуючих посилань вказують на те, що проблема лежить у самій архітектурі навчання сучасних моделей на відкритому вебі. Якщо розробники не знайдуть способу ізолювати свої пайплайни від завантаження laundered-контенту, чат-боти можуть перетворитися з помічників на потужний інструмент дестабілізації демократичних інститутів.