Концепція масштабування під час виводу (Test-time scaling або TTS) стає ключовим напрямком розвитку великих мовних моделей, дозволяючи їм витрачати більше ресурсів на складні завдання для отримання якісніших відповідей. Традиційно алгоритми, що визначають, скільки паралельних шляхів розв'язання задачі запускати або на яку глибину занурюватися у ланцюжки міркувань, писалися людьми вручну. Проте спільне дослідження фахівців з UMD, UVA, WUSTL, UNC, Google та Meta довело, що автоматизація цього пошуку за допомогою ШІ-агентів є набагато ефективнішою. Система AutoTTS дозволяє моделям самостійно досліджувати простір керування обчисленнями, знаходячи оптимальні траєкторії, які розробники-люди могли б просто не помітити.
Симуляція як ключ до дешевого пошуку
Головною інновацією AutoTTS є використання офлайн-середовища для симуляції. Замість того, щоб щоразу запускати повноцінну модель при тестуванні кожного нового алгоритму, дослідники попередньо генерували тисячі шляхів розв'язання для різних завдань. Це дозволило агенту Claude Code тестувати тисячі варіацій керування за лічені хвилини, оперуючи вже готовими даними. Такий підхід радикально знизив вартість дослідження: весь цикл пошуку оптимального алгоритму коштував лише 39,90 долара США та тривав близько 160 хвилин.
Процес пошуку відбувався ітеративно: Claude Code аналізував логи попередніх запусків, виявляв моменти, де обчислювальні ресурси витрачалися даремно, і коригував програмний код контролера. Автори роботи стверджують, що простір керування TTS визначається двома основними параметрами — шириною (кількістю паралельних спроб) та глибиною (довжиною ланцюжка міркувань). Дослідники зазначають у своїй праці, що більшість відомих методів є лише окремими випадками у цьому спільному просторі, і саме машинний пошук дозволяє знайти найкращий баланс між ними.
Ефективність та результати тестування
Результати виявилися примітними на математичних бенчмарках, таких як AIME та HMMT. Алгоритм, написаний Claude Code, продемонстрував кращу точність на одиницю обчислень порівняно зі стандартними методами. Ключові досягнення системи включають:
- Скорочення використання токенів на 70% порівняно зі стандартним методом self-consistency при збереженні ідентичної точності.
- Здатність алгоритму ефективно працювати з іншими моделями, зокрема DeepSeek-R1-Distill-Llama-8B, без додаткового налаштування.
- Успішне проходження не лише математичних тестів, а й складних наукових питань бенчмарку GPQA-Diamond.
Цей успіх демонструє зміну парадигми в розробці ШІ: від ручного проектування правил до створення середовищ, де ШІ сам проектує свою логіку роботи. Експерти зазначають, що такий підхід дозволяє створювати «ощадливі» системи, які не потребують надмірних потужностей для виконання складних логічних операцій.
Перспективи впровадження
Успіх AutoTTS відкриває шлях до створення більш автономних систем ШІ, які зможуть адаптувати свою продуктивність під конкретні бюджети користувачів або апаратні обмеження. Це особливо важливо для розгортання великих моделей на локальних пристроях або в умовах обмеженого доступу до хмарних ресурсів. Подальші дослідження будуть зосереджені на розширенні простору пошуку для ще складніших завдань, що виходять за межі математики та програмування.