ШІ Читати оригінал на The-decoder 2 хв читання 0

OpenAI покращує безпеку моделей через навчання корисних рис

Дослідники OpenAI продемонстрували, що інтеграція невеликих доз «корисних рис» під час навчання моделей через reinforcement learning значно підвищує їхню безпеку та стійкість до маніпуляцій. Використання реалістичних сценаріїв для відпрацювання таких якостей як чесність, епістемічна скромність та прозорість міркувань дозволяє моделям краще зберігати правильну поведінку навіть у незнайомих доменах. Результати тестування підтверджують, що позитивні behavioral patterns можуть масштабуватися на різні галузі без втрати корисних функцій.

Рожеві геометричні логотипи OpenAI утворюють повторюваний візерунок на яскраво-зеленому фоні.
Рожеві геометричні логотипи OpenAI утворюють повторюваний візерунок на яскраво-зеленому фоні. · Джерело зображення: The-decoder

За даними The-decoder, дослідники OpenAI виявили ефективний метод покращення безпеки штучного інтелекту, який базується на навчанні моделей специфічними поведінковими рисами у реалістичних умовах. На відміну від підходів, що фокусуються лише на обмеженнях, цей метод спрямований на зміцнення позитивних характеристик моделі через reinforcement learning.

Перенесення корисних рис на незнайомі домени

Команда розробників тренувала модель на діалогах, розроблених для перевірки таких якостей як truthfulness (правдивість), epistemic humility (епістемічна скромність), corrigibility (виправляність), прозорість міркувань, справедливість та турбота про благополуччя людей. Сценарії охоплювали такі сфери як медицина, освіта, наука, право та інженерія.

Важливо те, що лише невелика частка даних щодо «корисних рис» була змішана з регулярним пайплайном RL post-training. Попри це, модель продемонструвала покращення у 44 із 53 незалежних бенчмарків, які вимірюють рівень обману, чесності, сикофантства (схильності до підтакування), reward hacking та сценаріїв ментального здоров'я. Дослідження показало, що навчання на медичних даних покращувало результати в немедичних оцінках, а навпаки — відсутність наукових даних у навчанні все одно сприяла зростанню показників у наукових бенчмарках.

Стійкість до шкідливого керування

Дослідники також перевірили стійкість моделі до зовнішнього тиску. Adversarial промпти, які значно дестабілізували базову модель, мали набагато менший вплив на модель із тренованими корисними рисами. Шкідливе fine-tuning також менш ефективно руйнувало випрацьовані якості. Модель зберігала таку ж здатність до виконання корисних інструкцій, як і до навчання.

Дослідники називають це «selective persistence» — модель чинить опір шкідливому керуванню, не втрачаючи при цьому корисної гнучкості. Це свідчить про те, що RL-навчання зміцнює базові поведінкові патерни, які працюють універсально.

Відмінність від підходу Anthropic

Метод OpenAI суттєво відрізняється від стратегії Anthropic. Якщо OpenAI покладається на емпірично вимірювані поведінкові риси, то Anthropic використовує «конституцію Claude» — письмовий документ із цінностями, що слугує головним керівництвом для навчання.

  • OpenAI фокусується на результатах у реалістичних сценаріях та бенчмарках.
  • Anthropic базує підхід на принципах, де модель має розуміти причини бажаної поведінки через конституційні тексти.

Наразі прямих порівнянь цих двох підходів не існує, проте результати OpenAI вказують на високу здатність позитивних рис до генералізації.

Контекст для України

Для українських розробників та стартапів такі дослідження OpenAI мають пряме значення через доступність API моделей. Покращення стійкості до маніпуляцій означає, що інтеграція AI у критичні системи — від юридичних консультацій до медичного софту — стає безпечнішою для бізнесу в Україні. Оскільки українські компанії часто використовують готові рішення OpenAI, підвищення загальної безпеки моделей без втрати їхньої корисності знижує ризики непередбачуваної поведінки системи при роботі з локальними даними. Це також полегшує завдання для фахівців із кібербезпеки, які мають вибудовувати захищені workflow навколо LLM.

Часті запитання

Які саме корисні риси навчали моделі OpenAI?
Дослідники тренували модель на діалогах для розвитку таких якостей як truthfulness, epistemic humility, corrigibility, прозорість міркувань, справедливість та турбота про благополуччя людей у сферах медицини, освіти, науки, права та інженерії.
Чим підхід OpenAI відрізняється від стратегії Anthropic?
OpenAI покладається на емпірично вимірювані поведінкові риси в реалістичних сценаріях та бенчмарках, тоді як Anthropic використовує «конституцію Claude» — письмовий документ із цінностями для навчання моделі розумінню причин бажаної поведінки.
Telegram

Свіжі новини у нашому Telegram

Отримуйте миттєві сповіщення про нові публікації в рубриці «ШІ»

@proaiandevenmore