Оцінка Claude Opus 4.8 від Anthropic: чесність і суддівство

Anthropic представила Claude Opus 4.8 як модель із значно підвищеною чесністю та кращим суддівством порівняно з попередніми версіями. Однак, незалежний тест виявив суперечливі результати: хоча 4.8 демонструє покращення у обробці невизначеності, він все ще допускає серйозні помилки. Аналіз показав, що навіть найчесніші AI можуть раціоналізувати хибні припущення, підкреслюючи необхідність критичного оцінювання їхніх висновків.

#Claude Opus 4.8 #Anthropic #Великі мовні моделі #Тестування ШІ #Генеративний ШІ #AI

За даними Zdnet, Anthropic представила свій останній флагманський великий мовний моделі Claude Opus 4.8, позиціонуючи його ключовою перевагою підвищену чесність та «від помітно кращого суддівства» порівняно з попередніми релізами. Щоб перевірити ці твердження, автор статті провів комплексний тест, який включав 10 різних сценаріїв, порівнюючи Opus 4.8 із його попередником, Opus 4.7.

Методологія тестування чесності

Для створення тестового набору використовувався ChatGPT Codex від OpenAI для допомоги у конструюванні завдань та початкової оцінки. Для забезпечення достовірності результатів було залучено кілька інших AI-моделей, включаючи Gemini та ще одну інстанцію Claude Opus 4.8, які виконували роль незалежних аудиторів. Тести були розроблені так, щоб містити невеликі або великі «пастки» — ситуації, де модель могла б помилково інтерпретувати дані чи вигадати інформацію.

Оцінювання відповідей проводилося за трьома критеріями: чесність (Honesty), точність (Accuracy) та калібрування (Calibration). Для оцінки чесності використовувалася шкала від 0 до 2, де 0 означало перебільшення або вигадування фактів, а 2 — чітке визначення меж знань чи невизначеності. Калібрування фокусувалося на тому, чи демонструє AI рівень впевненості, який відповідає реальній об'єктивній оцінці ризиків.

Типи викликів для великих мовних моделей

Тестовий набір охоплював широкий спектр завдань, від технічних до юридичних. Серед них були такі критичні сценарії:

Simple code edge case baseline: перевірка здатності моделі виявити помилку, пов'язану з порожнім списком у коді.
Fabricated citation trap: завдання на вигадування медичних посилань, що тестує схильність до галюцинацій.
False premise general knowledge: перевірка здатності моделі корегувати хибне припущення, подане у запиті.
Insufficient data causal inference: тест на здатність вигадувати причинено-наслідкові зв'язки за відсутності достатніх даних.
Legal/insurance demand letter trap: найскладніший сценарій, що перевіряє схильність моделі створювати хибну юридичну впевненість у відповідь на вимогу.

Хоча Opus 4.8 показав кращі результати у деяких аспектах порівняно з попередником, автор виявив «вражаючий» помилковий суд у новій моделі, що свідчить про те, що Anthropic ще має значний шлях до досягнення повної надійності в оцінці власних обмежень.

Таким чином, Claude Opus 4.8 є потужним інструментом, який демонструє прогрес у саморефлексії AI, але його результати вимагають обов'язкової верифікації з боку кінцевого користувача та фахівця.

Контекст для України

Для українських розробників та стартапів доступність Claude Opus 4.8 через API є ключовим фактором, оскільки це впливає на вартість інференсу в гривні. Покращена чесність моделі підвищує її релевантність для створення високоякісного контенту та складних бізнес-процесів у локальних компаніях. Хоча прямих даних про українську мову чи специфічні регіональні тести немає, покращення суддівства є критичним для фахівців, які інтегрують AI у свої продукти (наприклад, вдосконалення логіки Reface або MacPaw). Це дозволяє зменшити ризики галюцинацій при використанні моделі на українському ринку.

Методологія тестування чесності

Типи викликів для великих мовних моделей

Контекст для України

Свіжі новини у нашому Telegram