ШІ Читати оригінал на The-decoder 1 хв читання 11

Чому не варто залишати вибір моделі в Copilot та Gemini на стандартному режимі

Експерти попереджають: використання AI-інструментів у стандартному режимі може призвести до серйозних помилок. Нове дослідження виявило, що Microsoft Copilot та інші великі мовні моделі можуть генерувати стереотипи про країни при аналізі текстових даних, навіть якщо ці дані ідентичні.

Чому не варто залишати вибір моделі в Copilot та Gemini на стандартному режимі — ілюстрація до новини в рубриці «ШІ»
Чому не варто залишати вибір моделі в Copilot та Gemini на стандартному режимі — ілюстрація до новини в рубриці «ШІ»

Microsoft Copilot став популярним інструментом для швидкого аналізу даних у багатьох корпораціях. Проте математик Adam Kucharski провів експеримент, який виявив критичну проблему: коли AI-асистент аналізує текстові дані, він може видавати результати, які не мають жодного відношення до реальних даних. Натомість модель покладається на стереотипи, вбудовані в базову мовну модель.

У першому тесті Kucharski створив 2000 симульованих відповідей про емоції та позначив їх як «UK». Потім він скопіював ті самі 2000 відповідей і позначив їх як «US». Ці 4000 записів були перемішані та передані Copilot у режимі «Auto» для аналізу. Очікуваний результат — нейтральний звіт про схожість даних, але інструмент натомість представив детальний висновок про те, як респонденти зі США та Великої Британії нібито відрізняються за тоном, інтенсивністю та стилем мови, хоча дані були абсолютно ідентичними.

Стереотипи замість фактів: кейс Італії та США

У другому експерименті Kucharski посилив тест. Він змусив мовну модель згенерувати 200 тверджень про кар'єрні цілі, а потім скопіював цей набір даних п’ять разів для представлення США, Великої Британії, Франції, Німеччини та Італії. Copilot знову виявив між країнами специфічні відмінності: італійці були утричі схильніше проявляти інтерес до мистецьких професій, ніж британці, а американці — у 1,5 раза більше орієнтовані на бізнес, ніж французи. При цьому всі п'ять груп містили абсолютно однакові клішовані та упереджені твердження.

Коли Kucharski попросив Copilot глибше проаналізувати дані, інструмент спочатку виконав простий підрахунок за ключовими словами — як і очікувалося, він повернув ідентичні результати для всіх країн. Але замість цього Copilot проігнорував власний висновок та запропонував кількісний аналіз із повністю сфабрикованими відсотками.

Telegram Logo Читайте нас у Telegram: @proaiandevenmore