Мониторинг в эпоху AI: что меняется, когда ваше приложение использует LLM
AI-приложениям нужен другой мониторинг. Отслеживайте стоимость LLM API, латентность, проблемы качества и обнаруживайте, когда галлюцинации AI вредят.
Традиционный мониторинг ломается на AI#
Раньше ваше приложение работало так:
Запрос → Ваш код → База данных → Ответ (детерминированный)
Мониторить просто: код работает? БД отвечает? Ответы быстрые?
Теперь оно выглядит так:
Запрос → Ваш код → LLM API → LLM обрабатывает токен за токеном →
База данных → Ответ (недетерминированный)
Три новые проблемы:
- Стоимость непредсказуема: LLM API тарифицирует за токены. Один запрос пользователя может стоить $0,01 или $1,00 в зависимости от длины вывода.
- Качество сложно измерить: Традиционный мониторинг говорит «запрос успешен». А выдал ли AI полезный ответ или галлюцинацию?
- Латентность плавающая: Ответы LLM могут занимать 500 мс или 30+ секунд в зависимости от модели и числа токенов.
Традиционный мониторинг такие проблемы не ловит.
Что должен отслеживать мониторинг в эпоху AI#
1. Стоимость и бюджет LLM API#
Проблема:
Обычный день:
- 10 000 запросов в OpenAI
- В среднем 500 входных токенов, 200 выходных
- Стоимость: 10 000 × ($0,005 + $0,015) = $200/день
Плохой день (неожиданно):
- 50 000 запросов в OpenAI
- В среднем 2 000 входных токенов, 1 000 выходных
- Стоимость: 50 000 × ($0,05 + $0,15) = $10 000/день
Без мониторинга: вы узнаёте, только когда приходит счёт от AWS
Что мониторить:
✅ Использованные токены на запрос
✅ Всего токенов за сегодня (vs дневной бюджет)
✅ Стоимость одного запроса
✅ Общие траты (vs месячный бюджет)
✅ Стоимость на пользователя (выявление «тяжёлых»)
✅ Тренд расходов (растёт ли стоимость? почему?)
Пороги алертов:
- Стоимость >2× нормы за час → Warning
- Стоимость >5× нормы за час → Critical
- Месячные траты >80% бюджета → Alert
2. Качество вывода AI#
Проблема:
Традиционный монитор говорит: «запрос успешен, время ответа 2 с, статус 200»
Реальность: AI «галлюцинировал» (выдал ложную информацию)
Пользовательский опыт: разочарованный пользователь
Что мониторить:
✅ Обнаружение галлюцинаций
- Выдумал ли AI факты? (сравнение с базой знаний)
- Противоречит ли AI сам себе? (проверка на согласованность)
- Ссылался ли AI на несуществующие документы? (валидация)
✅ Метрики качества ответа
- Ответил ли AI на вопрос пользователя?
- Есть ли в ответе обязательные секции?
- Соответствует ли ответ минимальному порогу точности?
✅ Обратная связь от пользователя
- Поставил ли пользователь «полезно»?
- Отметил ли пользователь ответ как неверный?
- Задал ли пользователь уточняющий вопрос (намёк на путаницу)?
Пример реализации:
После того как LLM сгенерировал ответ:
1. Проверка: цитирует ли ответ конкретный документ?
2. Верификация: существует ли этот документ в базе знаний
3. Алерт, если: ответ цитирует несуществующий источник (галлюцинация)
После того как пользователь получил ответ:
1. Сбор: фидбек 👍 / 👎
2. Отслеживание: % ответов, отмеченных как полезные
3. Алерт, если: рейтинг полезности падает >10% (деградация качества)
3. Латентность LLM и rate limits#
Проблема:
Лимит OpenAI: 3 500 запросов в минуту
Ваше приложение: 4 000 запросов в минуту в пике
Поведение: 500 запросов в очереди или отклонены
Без мониторинга: пользователи видят таймауты, не понимают почему
Что мониторить:
✅ Глубина очереди запросов
- Сколько запросов ждут ответа LLM?
- Растущая очередь = недостаточно мощностей
✅ Статус rate limit
- Подходите ли вы к лимиту OpenAI?
- Получаете ли ошибки 429 (Too Many Requests)?
✅ Распределение латентности
- 95-й перцентиль
- 99-й перцентиль
- Растут ли выбросы?
✅ Различия в производительности моделей
- GPT-4 медленнее, но точнее
- GPT-3.5 быстрее, но менее точна
- Расходятся ли времена ответа моделей?
Пороги алертов:
- Глубина очереди >1 000 запросов → Warning (накапливается бэклог)
- Ошибки 429 >1% → Critical (упёрлись в rate limit)
- Латентность P95 >10 с → Warning (деградация)
- Латентность P99 >30 с → Critical (вероятны таймауты)
Шаблоны мониторинга, специфичные для AI#
Шаблон 1. Обнаружение аномалий стоимости#
Дневной бюджет: $500
Обычные дневные траты: $200
Мониторинг:
- Отслеживает траты в реальном времени
- Замечает, когда траты превышают норму на 50%
- Если норма $200/день, а к 14:00 уже $300 → Alert
- Корневая причина: либо больше пользователей, либо каждый запрос дороже
Шаблон 2. Обнаружение деградации качества#
Базовые метрики:
- Доля галлюцинаций: <2%
- Полезность по рейтингу пользователей: 85%
- Средняя длина ответа: 300 токенов
После деплоя:
- Доля галлюцинаций: 8%
- Полезность: 72%
- Средний ответ: 500 токенов
Алерт: качество деградировало (галлюцинаций больше, полезность ниже)
Шаблон 3. Отслеживание производительности моделей#
В продакшене вы используете 3 модели:
- GPT-4: дорогая, точная, медленная
- GPT-3.5: дешёвая, нормальная, быстрая
- Claude-Haiku: очень дешёвая, хорошая, средняя
Мониторинг по каждой модели:
- Латентность
- Стоимость
- Качество (по фидбеку пользователей)
- Число использований
Если Claude-Haiku становится быстрее/дешевле при том же качестве → подумайте использовать чаще
Если латентность GPT-4 выросла на 50% → алерт, возможна проблема с API
Шаблон 4. Тренды использования токенов#
Базис:
- Входные токены на запрос: 500
- Выходные токены на запрос: 200
- Всего в день: 10M входных, 2M выходных
После изменения фичи (добавили контекст):
- Входные токены на запрос: 2 000 (рост в 4 раза)
- Выходные токены на запрос: 200
- Всего в день: 40M входных, 2M выходных (стоимость выросла в 4 раза)
Алерт: стоимость выросла неожиданно. Проверьте, что изменилось.
Реализация: настройка мониторинга AI#
Шаг 1. Инструментируйте свои вызовы LLM (2 часа)#
Добавьте мониторинг в каждый вызов LLM API:
import time
from openai import OpenAI
def call_llm_monitored(prompt, user_id, request_type):
start_time = time.time()
try:
response = openai.ChatCompletion.create(
model="gpt-3.5-turbo",
messages=[{"role": "user", "content": prompt}]
)
latency = time.time() - start_time
tokens_input = response.usage.prompt_tokens
tokens_output = response.usage.completion_tokens
cost = (tokens_input * 0.0005 + tokens_output * 0.0015) / 1000
# Send metrics to monitoring
monitor.track({
"event": "llm_call",
"model": "gpt-3.5-turbo",
"latency_ms": latency * 1000,
"input_tokens": tokens_input,
"output_tokens": tokens_output,
"cost_cents": cost * 100,
"user_id": user_id,
"request_type": request_type,
"status": "success"
})
return response.choices[0].message.content
except Exception as e:
monitor.track({
"event": "llm_call",
"status": "error",
"error": str(e),
"user_id": user_id
})
raise
Шаг 2. Отслеживайте стоимость в реальном времени#
Дневная агрегация:
- Всего запросов: 5 000
- Всего входных токенов: 2,5M
- Всего выходных токенов: 500K
- Общая стоимость: $18,50
- Стоимость одного запроса: $0,0037
Сравнение с бюджетом:
- Дневной бюджет: $25
- Использовано: $18,50 (74% бюджета)
- Остаток: $6,50
Шаг 3. Измеряйте качество вывода#
Для AI-поддержки клиентов:
1. После генерации ответа: спросите «Это было полезно?»
2. Если 👎 → отметить как ответ низкого качества
3. Отслеживайте: какой % ответов оценён как полезный?
Базис: 90% полезных
После деплоя: 75% полезных
Алерт: качество просело на 15 пунктов
Шаг 4. Настройте алерты#
Critical (поднимать дежурного):
- Стоимость/час >5× нормы (сигнал о неконтролируемом использовании LLM)
- Ошибки 429 (LLM API упёрся в лимит)
- Доля галлюцинаций >10%
- Полезность по рейтингу пользователей <50%
Warning (алерт в Slack):
- Стоимость/час >2× нормы
- Латентность P95 >10 секунд
- Глубина очереди >500 запросов
- Доля галлюцинаций >5%
Info (ежедневный дайджест):
- Тренды стоимости (растут ли траты?)
- Сравнение производительности моделей
- Тренды фидбека пользователей
Распространённые ошибки в мониторинге AI#
Ошибка 1. Не мониторить использование токенов#
Что происходит: ваше приложение вызывает LLM со всё более длинным контекстом. Использование токенов растёт. Стоимость растёт. Вы замечаете, только когда месячный счёт приходит в 10 раз больше ожидаемого.
Решение: отслеживайте токены на запрос. Алерт, если число токенов выросло >50%.
Ошибка 2. Измерять только скорость ответа, а не качество#
Что происходит: вы оптимизируете под латентность. Модель становится быстрее, но галлюцинирует больше. Пользователи теряют доверие. Выручка падает.
Решение: мониторьте И латентность, И качество (доля галлюцинаций, фидбек пользователей).
Ошибка 3. Не отслеживать статус LLM API#
Что происходит: у OpenAI авария. Ваши запросы накапливаются. Пользователи ждут 30+ секунд. Вы думаете, что сломан ваш код.
Решение: мониторьте здоровье OpenAI API отдельно. Понимайте, на чьей стороне проблема.
Ошибка 4. Один и тот же алерт стоимости на разные модели#
Что происходит: вы выставили алерт «стоимость >$10/день». Это работает для GPT-3.5. Но вы добавили GPT-4 (дороже). Теперь алерт срабатывает постоянно.
Решение: алерты стоимости — отдельно по моделям. GPT-3.5: $10/день. GPT-4: $50/день.
Ошибка 5. Не мониторить фидбек пользователей#
Что происходит: AI галлюцинирует. Традиционный мониторинг говорит «всё работает». Пользователи получают неверную информацию.
Решение: просите оценивать ответы. Отслеживайте оценки. Алерт, если падают.
Ошибка 6. Игнорировать стоимость на пользователя#
Что происходит: запросы одного пользователя стоят $10/мес. Подписка с него — $5/мес. Вы теряете деньги на этом пользователе.
Решение: отслеживайте стоимость на пользователя. Алерт, если затраты на пользователя превышают его вклад в выручку.
Инструменты мониторинга AI (статус 2026)#
Встроенный мониторинг LLM:
- Langsmith (мониторинг LangChain) — отслеживает вызовы LLM из LangChain
- Дашборд OpenAI API — базовый трекинг токенов/стоимости
- Консоль Anthropic — использование Claude API
Общие APM-инструменты (с поддержкой AI):
- Datadog — добавили мониторинг LLM (стоимость, латентность, качество)
- New Relic — добавили трекинг LLM
- Dynatrace — добавили мониторинг AI
Специализированный мониторинг AI:
- Arize — мониторинг AI-моделей (обнаружение галлюцинаций, drift)
- Whylabs — мониторинг качества моделей
- Arthur.ai — governance и мониторинг AI
Лучшая связка: Langsmith или консоль Anthropic для специфики LLM + Datadog для корреляции с метриками приложения.
Реальный пример мониторинга AI#
Сценарий: чат-бот поддержки клиентов на GPT-4
Базовые метрики:
- Запросов/день: 10 000
- Среднее число входных токенов: 1 500
- Среднее число выходных токенов: 300
- Стоимость: $65/день
- Рейтинг пользователей: 88% полезно
- Доля галлюцинаций: 1%
После апдейта продукта (добавили контекст):
- Запросов/день: 10 000 (без изменений)
- Среднее число входных токенов: 3 500 (+133%)
- Среднее число выходных токенов: 300 (без изменений)
- Стоимость: $116/день (+78%)
- Рейтинг пользователей: 92% полезно (+4%)
- Доля галлюцинаций: 0,5% (−50%)
Анализ:
- Стоимость выросла на 78%, но качество улучшилось
- Расчёт ROI: дополнительные $51/день × 30 дней = $1 530/мес
- Профит: на 4% больше пользователей считают ответ полезным
- При 10 000 пользователей/день рост на 4% = 400 дополнительно довольных пользователей в день
- Ценность: предотвращение эскалаций в поддержку (экономия $5 за каждую предотвращённую)
- Точка безубыточности: 306 предотвращённых эскалаций/мес = $1 530
Решение: рост стоимости оправдан. Апдейт продукта повысил удовлетворённость достаточно, чтобы перекрыть затраты на LLM.
Без мониторинга AI: решение принимается вслепую, по ощущениям.
Итог: мониторинг AI-приложений#
AI-приложениям нужен мониторинг шире классических метрик производительности:
- Мониторинг стоимости — отслеживайте использование токенов и траты в реальном времени. Алерты на аномалии стоимости.
- Мониторинг качества — измеряйте качество вывода AI (доля галлюцинаций, фидбек пользователей).
- Мониторинг латентности — отслеживайте время ответа LLM и глубину очереди.
- Алерты по бюджету — предупреждайте до того, как перерасходуете на LLM API.
- Фидбек пользователей — собирайте оценки, чтобы измерять качество без ручного ревью.
Чек-лист быстрой реализации:
- ✅ Инструментируйте все вызовы LLM с трекингом токенов
- ✅ Считайте и отслеживайте стоимость на запрос
- ✅ Контролируйте суммарные дневные/месячные траты против бюджета
- ✅ Мониторьте латентность LLM API и rate limits
- ✅ Собирайте фидбек по качеству ответа
- ✅ Алертите на аномалии стоимости (>2× нормы)
- ✅ Алертите на деградацию качества (рост доли галлюцинаций)
- ✅ Отслеживайте различия производительности моделей
- ✅ Мониторьте сдвиги в настроении пользователей
- ✅ Задавайте бюджеты по фичам/пользователям/моделям
Мониторинг AI критичен для контроля затрат при сохранении качества. Разница между прибыльной и убыточной AI-фичей часто — это улучшение качества на 1–2% в сочетании с мониторингом стоимости.
Готовы мониторить AI-приложения? Начните с мониторинга доступности от Nova Uptime для вашего API, затем добавьте LLM-мониторинг через Langsmith или Datadog.
Monitor Your Website Before It Goes Down
Get uptime monitoring, SSL tracking, domain expiry alerts, and email health checks. Free plan — no credit card required.
Start Monitoring FreeПохожие статьи
Domain Health Check: полный бесплатный аудит (DNS + SSL + Email + Uptime)
Проведите полный бесплатный аудит здоровья домена за 5 минут: DNS, SSL, email-аутентификация (SPF/DKIM/DMARC), блок-листы и uptime. Пошаговый чек-лист включён.
Истечение домена и истечение SSL: в чём разница?
Истечение домена и SSL: что происходит в каждом случае, ключевые отличия и как эффективно мониторить оба события.
Мониторинг микросервисов и Kubernetes: за пределами простых uptime-проверок
Микросервисы требуют распределённого мониторинга. Узнайте, как мониторить зависимости сервисов, здоровье оркестрации и распределённые сбои.