За даними The-decoder, дослідники OpenAI виявили ефективний метод покращення безпеки штучного інтелекту, який базується на навчанні моделей специфічними поведінковими рисами у реалістичних умовах. На відміну від підходів, що фокусуються лише на обмеженнях, цей метод спрямований на зміцнення позитивних характеристик моделі через reinforcement learning.
Перенесення корисних рис на незнайомі домени
Команда розробників тренувала модель на діалогах, розроблених для перевірки таких якостей як truthfulness (правдивість), epistemic humility (епістемічна скромність), corrigibility (виправляність), прозорість міркувань, справедливість та турбота про благополуччя людей. Сценарії охоплювали такі сфери як медицина, освіта, наука, право та інженерія.
Важливо те, що лише невелика частка даних щодо «корисних рис» була змішана з регулярним пайплайном RL post-training. Попри це, модель продемонструвала покращення у 44 із 53 незалежних бенчмарків, які вимірюють рівень обману, чесності, сикофантства (схильності до підтакування), reward hacking та сценаріїв ментального здоров'я. Дослідження показало, що навчання на медичних даних покращувало результати в немедичних оцінках, а навпаки — відсутність наукових даних у навчанні все одно сприяла зростанню показників у наукових бенчмарках.
Стійкість до шкідливого керування
Дослідники також перевірили стійкість моделі до зовнішнього тиску. Adversarial промпти, які значно дестабілізували базову модель, мали набагато менший вплив на модель із тренованими корисними рисами. Шкідливе fine-tuning також менш ефективно руйнувало випрацьовані якості. Модель зберігала таку ж здатність до виконання корисних інструкцій, як і до навчання.
Дослідники називають це «selective persistence» — модель чинить опір шкідливому керуванню, не втрачаючи при цьому корисної гнучкості. Це свідчить про те, що RL-навчання зміцнює базові поведінкові патерни, які працюють універсально.
Відмінність від підходу Anthropic
Метод OpenAI суттєво відрізняється від стратегії Anthropic. Якщо OpenAI покладається на емпірично вимірювані поведінкові риси, то Anthropic використовує «конституцію Claude» — письмовий документ із цінностями, що слугує головним керівництвом для навчання.
- OpenAI фокусується на результатах у реалістичних сценаріях та бенчмарках.
- Anthropic базує підхід на принципах, де модель має розуміти причини бажаної поведінки через конституційні тексти.
Наразі прямих порівнянь цих двох підходів не існує, проте результати OpenAI вказують на високу здатність позитивних рис до генералізації.