Новий бенчмарк виявляє слабкі місця ШІ у математиці

Консорціум із 64 математиків створив новий бенчмарк для AI-моделей, який виявляє дві критичні слабкі сторони: здатність розв'язувати задачі дослідницького рівня та вміння розпізнавати нерозв'язні завдання. Оскільки сучасні провідні моделі вже досягли високого рівня (рівня IMO Gold), дослідження в галузі AI вимагають створення нових, більш складних математичних бенчмарків.

SOOHAK — це новий набір завдань, розроблений за участі Carnegie Mellon University, EleutherAI та Seoul National University, серед інших установ. Він складається з 439 оригінальних задач і поділений на дві секції: "Challenge" із 340 задач для аспірантів і дослідників, а також "Refusal" — 99 навмисно помилкових завдань, які містять суперечності або не дозволяють чіткої відповіді.

Важливо зазначити, що SOOHAK був написаний з нуля командою із 38 професорів, 25 аспірантів та постдоків, а також п'ятьма медалістами IMO. На відміну від загальнодоступних збірок, кожен учасник перед поданням мав підтвердити, що працював без допомоги AI, і будь-хто, хто намагався втрутити LLM-згенеровані завдання, був відхилений.

Математика дослідницького рівня як бар'єр для моделей

За словами авторів, навіть при використанні найпотужніших систем, математика дослідницького рівня залишається значним викликом. У наборі "Challenge" Gemini 3 Pro отримав найвищий бал — 30 відсотків, за ним слідував GPT-5 (5.1, 5.2) із 26 відсотками. Claude Opus 4.5 знизився до 10 відсотків. Моделі з відкритими вагами, такі як Kimi-2.5, Qwen3-235B та GPT-OSS-120B, залишаються нижче позначки 15 відсотків. Жодна із протестованих моделей не змогла вирішити 124 завдання з цього набору.

На простішому супутньому наборі SOOHAK-Mini — який охоплює рівень шкільних олімпіад до раннього коледжу — бали значно вищі, а найкращі моделі розташовані ближче одна до одної. Прогалина між лідерами відкривається лише при роботі з математикою дослідницького рівня, особливо для моделей з відкритими вагами. Автори стверджують, що це свідчить про те, що системи з відкритими вагами гірше адаптуються до неопублікованого матеріалу через відсутність покриття навчання у вузьких сферах.

Визначення нерозв'язності: новий цільовий параметр

Справжній прорив порівняно з попередніми бенчмарками — це набір "Refusal". Він містить завдання, які були позначені як нерозв'язні під час контролю якості, оскільки їм бракує припущень або вони містять суперечності. Модель отримує бали лише тоді, коли вона виявляє та називає помилку, а не впевнено надає числове рішення.

Жодна модель тут не досягла позначки 50 відсотків. Найкраще серед моделей з відкритими вагами GLM-5 показала результат трохи нижче 50 відсотків, перевершивши як GPT-5, так і Gemini 3 Pro. Сім'я Qwen3 падає до менше ніж 3 відсотки, майже завжди не в змозі правильно позначити зламане завдання. Автори описують виявлення помилкових завдань як "новий цільовий параметр оптимізації, який поточні моделі не вирішують напряму".

Варто також зазначити, що рівень розв'язання зростає майже лінійно зі збільшенням розміру моделей та тривалістю бюджету для міркувань. Однак здатність до відмови (refusal) не слідує такого ж патерну: більше обчислювальної потужності робить моделі кращими у розв'язання задач, але це не робить їх кращими у визнанні того, що завдання не має відповіді.

Математика дослідницького рівня як бар'єр для моделей

Визначення нерозв'язності: новий цільовий параметр

Свіжі новини у нашому Telegram