Код Читати оригінал на Infoq 2 хв читання 26

GitHub знизив витрати токенів на 62% в агентських пайплайнах

GitHub опублікував результати оптимізації токенів у агентських пайплайнах, які компанія запускає у власних репозиторіях. Після видалення невикористаних інструментів Model Context Protocol (MCP), заміни MCP-викликів на GitHub CLI та впровадження щоденних агентів аудиту й оптимізації команда зафіксувала зниження витрат до 62%. Для порівняння вартості між різними моделями GitHub розробила метрику Effective Tokens (ET): вихідні токени враховуються з коефіцієнтом 4×, кешовані читання — 0,1×, а модельний множник становить 0,25× для Haiku, 1,0× для Sonnet і 5,0× для Opus. Зниження ET на 10% відповідає зниженню вартості на 10% незалежно від моделі. Кожен агентський виклик маршрутизується через API-проксі, а для кожного запуску формується артефакт token-usage.jsonl із нормалізованими даними по Claude CLI, Copilot CLI і Codex CLI. Серед 12 виробничих пайплайнів Auto-Triage Issues показав стале зниження ET на 62% за 109 запусків після виправлень, Security Guard — на 43%, Smoke Claude — на 59%. Daily Community Attribution покращив показник на 37%, тоді як Contribution Check зафіксував зростання ET на 5%, яке GitHub пояснює збільшенням розміру pull request-ів, а не регресією.

GitHub знизив витрати токенів на 62% в агентських пайплайнах — ілюстрація до новини в рубриці «Код»
GitHub знизив витрати токенів на 62% в агентських пайплайнах — ілюстрація до новини в рубриці «Код» · Джерело зображення: Infoq

GitHub систематизував підхід до скорочення токенних витрат в агентських CI-пайплайнах і опублікував детальний звіт із конкретними цифрами. За даними Infoq, компанія впровадила дворівневу систему моніторингу та оптимізації, яка дозволила знизити витрати на найбільш навантажених пайплайнах більш ніж удвічі.

Як працює система аудиту та оптимізації

В основі рішення — два агенти, які щодня аналізують споживання токенів. Daily Token Usage Auditor агрегує дані по пайплайнах, виявляє аномальні запуски та визначає найдорожчі завдання. Коли аудитор позначає проблемний пайплайн, Daily Token Optimiser читає вихідний код і останні логи, відкриває GitHub issue та пропонує конкретні виправлення. Обидва агенти самі фігурують у щоденних звітах, що забезпечує прозорість їхнього власного споживання ресурсів.

Найпоширеніша неефективність: невикористані MCP-інструменти

Оскільки LLM API є stateless, агентські рантайми включають схеми інструментів у кожний запит. GitHub MCP-сервер із 40 інструментами може додавати від 10 до 15 KB схеми на кожен виклик. Видалення невикористаних записів скорочує контекст одного виклику на 8–12 KB у smoke-test пайплайнах компанії. Проте команда зазначає обмеження цього підходу: у Daily Community Attribution було 8 невикористаних MCP-інструментів, однак їх видалення не вплинуло на ET — маніфести інструментів становили мізерну частку загального контексту цього пайплайну.

Заміна MCP на gh CLI і проксування запитів

Команда також замінила MCP-виклики для отримання diff-ів pull request-ів і вмісту файлів на команди gh CLI. Дані або попередньо завантажуються у файли робочого простору до старту агента, або проксуються через прозорий HTTP-проксі в реальному часі — цей підхід не передає токени автентифікації безпосередньо агенту. Усі агентські виклики маршрутизуються через API-проксі, який записує нормалізований артефакт token-usage.jsonl із вхідними, вихідними та кешованими токенами для Claude CLI, Copilot CLI і Codex CLI.

Результати та наступні кроки

  • Auto-Triage Issues: зниження ET на 62% за 109 запусків після виправлень
  • Smoke Claude: зниження на 59%
  • Security Guard: зниження на 43%
  • Daily Community Attribution: покращення на 37%
  • Contribution Check: зростання на 5% через збільшення обсягу pull request-ів

Auditor і Optimiser вже доступні у gh-aw CLI. GitHub формулює наступний крок як аналіз на рівні портфеля пайплайнів — виявлення дублювання читань і спільних проміжних артефактів у масштабах всього репозиторію. «Найдешевший LLM-виклик — той, якого не було», — зазначає GitHub, підкреслюючи, що систематична економія токенів є інженерною дисципліною, а не одноразовою оптимізацією.

Контекст для України

Українські розробники, які використовують GitHub Actions і MCP-інтеграції у власних проєктах, можуть одразу застосувати підхід із gh-aw CLI для аудиту токенних витрат. На DOU активно обговорюються практики оптимізації AI-асистованого коду, а релоковані та мобілізовані розробники, що працюють над pet-проєктами з обмеженим бюджетом, отримують конкретний інструментарій для зниження витрат на LLM-виклики без зміни архітектури пайплайнів.
Telegram

Свіжі новини у нашому Telegram

Отримуйте миттєві сповіщення про нові публікації в рубриці «Код»

@procodeandevenmore