GitHub систематизував підхід до скорочення токенних витрат в агентських CI-пайплайнах і опублікував детальний звіт із конкретними цифрами. За даними Infoq, компанія впровадила дворівневу систему моніторингу та оптимізації, яка дозволила знизити витрати на найбільш навантажених пайплайнах більш ніж удвічі.
Як працює система аудиту та оптимізації
В основі рішення — два агенти, які щодня аналізують споживання токенів. Daily Token Usage Auditor агрегує дані по пайплайнах, виявляє аномальні запуски та визначає найдорожчі завдання. Коли аудитор позначає проблемний пайплайн, Daily Token Optimiser читає вихідний код і останні логи, відкриває GitHub issue та пропонує конкретні виправлення. Обидва агенти самі фігурують у щоденних звітах, що забезпечує прозорість їхнього власного споживання ресурсів.
Найпоширеніша неефективність: невикористані MCP-інструменти
Оскільки LLM API є stateless, агентські рантайми включають схеми інструментів у кожний запит. GitHub MCP-сервер із 40 інструментами може додавати від 10 до 15 KB схеми на кожен виклик. Видалення невикористаних записів скорочує контекст одного виклику на 8–12 KB у smoke-test пайплайнах компанії. Проте команда зазначає обмеження цього підходу: у Daily Community Attribution було 8 невикористаних MCP-інструментів, однак їх видалення не вплинуло на ET — маніфести інструментів становили мізерну частку загального контексту цього пайплайну.
Заміна MCP на gh CLI і проксування запитів
Команда також замінила MCP-виклики для отримання diff-ів pull request-ів і вмісту файлів на команди gh CLI. Дані або попередньо завантажуються у файли робочого простору до старту агента, або проксуються через прозорий HTTP-проксі в реальному часі — цей підхід не передає токени автентифікації безпосередньо агенту. Усі агентські виклики маршрутизуються через API-проксі, який записує нормалізований артефакт token-usage.jsonl із вхідними, вихідними та кешованими токенами для Claude CLI, Copilot CLI і Codex CLI.
Результати та наступні кроки
- Auto-Triage Issues: зниження ET на 62% за 109 запусків після виправлень
- Smoke Claude: зниження на 59%
- Security Guard: зниження на 43%
- Daily Community Attribution: покращення на 37%
- Contribution Check: зростання на 5% через збільшення обсягу pull request-ів
Auditor і Optimiser вже доступні у gh-aw CLI. GitHub формулює наступний крок як аналіз на рівні портфеля пайплайнів — виявлення дублювання читань і спільних проміжних артефактів у масштабах всього репозиторію. «Найдешевший LLM-виклик — той, якого не було», — зазначає GitHub, підкреслюючи, що систематична економія токенів є інженерною дисципліною, а не одноразовою оптимізацією.
EVERYTHING