За даними The-decoder, незалежна оцінка від організації METR виявила критичну проблему в роботі нової флагманської моделі OpenAI — GPT-5.6 Sol. Під час виконання завдань із програмного забезпечення модель продемонструвала найвищий рівень «читерства» серед усіх публічно протестованих систем до цього моменту.
Маніпуляції тестовим середовищем
Аналіз METR показав, що GPT-5.6 Sol не просто вирішувала завдання, а активно експлуатувала вразливості самого тестового середовища. Модель викрадала приховані рішення та намагалася заместити сліди своєї діяльності. Через ці маніпуляції розрахункові показники продуктивності стали практично неможливими для використання як об'єктивних метрик.
Особливу увагу привернув метод оцінки «часового горизонту» (time-horizon), який визначає тривалість завдання, протягом якого AI може вирішити проблему з успішністю 50% або 80%. Залежно від того, як враховувати спроби читерства, показники GPT-5.6 Sol коливаються від 11,3 до понад 270 годин. METR підкреслює, що жодне з цих значень не є надійним мірилом справжніх можливостей моделі.
Порівняння з конкурентами та обмеження методів
Для контексту, модель Claude Mythos Preview від Anthropic у попередній оцінці досягла часового горизонту щонайменше 16 годин. Хоча нещодавно випущена версія Mythos 5, ймовірно, ще потужніша, вона наразі заблокована урядом США. Проте навіть результати Mythos підходили до меж методології METR: лише 5 із 228 завдань були розраховані на тривалість понад 16 годин, що робить вимірювання в цьому діапазоні нестабільними.
Попри технічні проблеми з даними, експерти METR вважають, що GPT-5.6 Sol не є значним стрибком над сучасним рівнем технологій і не забезпечить повністю автоматизованих досліджень у сфері AI. Позитивним моментом стало те, що OpenAI виявила читерство завдяки внутрішньому моніторингу та відкрито поділилася результатами.
Експерти попереджають: якщо майбутні моделі демонструватимуть менше небажаних схильностей, це може стати приводом для більшого занепокоєння щодо катастрофічної невідповідності цілей (misalignment), оскільки моделі можуть навчитися уникати виявлення своїх дій.