Nova Uptime
Экспертные мненияaillmmonitoring

Мониторинг в эпоху AI: что меняется, когда ваше приложение использует LLM

AI-приложениям нужен другой мониторинг. Отслеживайте стоимость LLM API, латентность, проблемы качества и обнаруживайте, когда галлюцинации AI вредят.

SN
Sumit Nova Uptime
3 марта 2026 г. · 10 min read
Share:

Традиционный мониторинг ломается на AI#

Раньше ваше приложение работало так:

Запрос → Ваш код → База данных → Ответ (детерминированный)

Мониторить просто: код работает? БД отвечает? Ответы быстрые?

Теперь оно выглядит так:

Запрос → Ваш код → LLM API → LLM обрабатывает токен за токеном →
База данных → Ответ (недетерминированный)

Три новые проблемы:

  1. Стоимость непредсказуема: LLM API тарифицирует за токены. Один запрос пользователя может стоить $0,01 или $1,00 в зависимости от длины вывода.
  2. Качество сложно измерить: Традиционный мониторинг говорит «запрос успешен». А выдал ли AI полезный ответ или галлюцинацию?
  3. Латентность плавающая: Ответы LLM могут занимать 500 мс или 30+ секунд в зависимости от модели и числа токенов.

Традиционный мониторинг такие проблемы не ловит.


Что должен отслеживать мониторинг в эпоху AI#

1. Стоимость и бюджет LLM API#

Проблема:

Обычный день:
- 10 000 запросов в OpenAI
- В среднем 500 входных токенов, 200 выходных
- Стоимость: 10 000 × ($0,005 + $0,015) = $200/день

Плохой день (неожиданно):
- 50 000 запросов в OpenAI
- В среднем 2 000 входных токенов, 1 000 выходных
- Стоимость: 50 000 × ($0,05 + $0,15) = $10 000/день

Без мониторинга: вы узнаёте, только когда приходит счёт от AWS

Что мониторить:

✅ Использованные токены на запрос
✅ Всего токенов за сегодня (vs дневной бюджет)
✅ Стоимость одного запроса
✅ Общие траты (vs месячный бюджет)
✅ Стоимость на пользователя (выявление «тяжёлых»)
✅ Тренд расходов (растёт ли стоимость? почему?)

Пороги алертов:

  • Стоимость >2× нормы за час → Warning
  • Стоимость >5× нормы за час → Critical
  • Месячные траты >80% бюджета → Alert

2. Качество вывода AI#

Проблема:

Традиционный монитор говорит: «запрос успешен, время ответа 2 с, статус 200»
Реальность: AI «галлюцинировал» (выдал ложную информацию)
Пользовательский опыт: разочарованный пользователь

Что мониторить:

✅ Обнаружение галлюцинаций
  - Выдумал ли AI факты? (сравнение с базой знаний)
  - Противоречит ли AI сам себе? (проверка на согласованность)
  - Ссылался ли AI на несуществующие документы? (валидация)

✅ Метрики качества ответа
  - Ответил ли AI на вопрос пользователя?
  - Есть ли в ответе обязательные секции?
  - Соответствует ли ответ минимальному порогу точности?

✅ Обратная связь от пользователя
  - Поставил ли пользователь «полезно»?
  - Отметил ли пользователь ответ как неверный?
  - Задал ли пользователь уточняющий вопрос (намёк на путаницу)?

Пример реализации:

После того как LLM сгенерировал ответ:
1. Проверка: цитирует ли ответ конкретный документ?
2. Верификация: существует ли этот документ в базе знаний
3. Алерт, если: ответ цитирует несуществующий источник (галлюцинация)

После того как пользователь получил ответ:
1. Сбор: фидбек 👍 / 👎
2. Отслеживание: % ответов, отмеченных как полезные
3. Алерт, если: рейтинг полезности падает >10% (деградация качества)

3. Латентность LLM и rate limits#

Проблема:

Лимит OpenAI: 3 500 запросов в минуту
Ваше приложение: 4 000 запросов в минуту в пике
Поведение: 500 запросов в очереди или отклонены

Без мониторинга: пользователи видят таймауты, не понимают почему

Что мониторить:

✅ Глубина очереди запросов
  - Сколько запросов ждут ответа LLM?
  - Растущая очередь = недостаточно мощностей

✅ Статус rate limit
  - Подходите ли вы к лимиту OpenAI?
  - Получаете ли ошибки 429 (Too Many Requests)?

✅ Распределение латентности
  - 95-й перцентиль
  - 99-й перцентиль
  - Растут ли выбросы?

✅ Различия в производительности моделей
  - GPT-4 медленнее, но точнее
  - GPT-3.5 быстрее, но менее точна
  - Расходятся ли времена ответа моделей?

Пороги алертов:

  • Глубина очереди >1 000 запросов → Warning (накапливается бэклог)
  • Ошибки 429 >1% → Critical (упёрлись в rate limit)
  • Латентность P95 >10 с → Warning (деградация)
  • Латентность P99 >30 с → Critical (вероятны таймауты)

Шаблоны мониторинга, специфичные для AI#

Шаблон 1. Обнаружение аномалий стоимости#

Дневной бюджет: $500
Обычные дневные траты: $200

Мониторинг:
- Отслеживает траты в реальном времени
- Замечает, когда траты превышают норму на 50%
- Если норма $200/день, а к 14:00 уже $300 → Alert
- Корневая причина: либо больше пользователей, либо каждый запрос дороже

Шаблон 2. Обнаружение деградации качества#

Базовые метрики:
- Доля галлюцинаций: <2%
- Полезность по рейтингу пользователей: 85%
- Средняя длина ответа: 300 токенов

После деплоя:
- Доля галлюцинаций: 8%
- Полезность: 72%
- Средний ответ: 500 токенов

Алерт: качество деградировало (галлюцинаций больше, полезность ниже)

Шаблон 3. Отслеживание производительности моделей#

В продакшене вы используете 3 модели:
- GPT-4: дорогая, точная, медленная
- GPT-3.5: дешёвая, нормальная, быстрая
- Claude-Haiku: очень дешёвая, хорошая, средняя

Мониторинг по каждой модели:
- Латентность
- Стоимость
- Качество (по фидбеку пользователей)
- Число использований

Если Claude-Haiku становится быстрее/дешевле при том же качестве → подумайте использовать чаще
Если латентность GPT-4 выросла на 50% → алерт, возможна проблема с API

Шаблон 4. Тренды использования токенов#

Базис:
- Входные токены на запрос: 500
- Выходные токены на запрос: 200
- Всего в день: 10M входных, 2M выходных

После изменения фичи (добавили контекст):
- Входные токены на запрос: 2 000 (рост в 4 раза)
- Выходные токены на запрос: 200
- Всего в день: 40M входных, 2M выходных (стоимость выросла в 4 раза)

Алерт: стоимость выросла неожиданно. Проверьте, что изменилось.

Реализация: настройка мониторинга AI#

Шаг 1. Инструментируйте свои вызовы LLM (2 часа)#

Добавьте мониторинг в каждый вызов LLM API:

import time
from openai import OpenAI

def call_llm_monitored(prompt, user_id, request_type):
    start_time = time.time()

    try:
        response = openai.ChatCompletion.create(
            model="gpt-3.5-turbo",
            messages=[{"role": "user", "content": prompt}]
        )

        latency = time.time() - start_time
        tokens_input = response.usage.prompt_tokens
        tokens_output = response.usage.completion_tokens
        cost = (tokens_input * 0.0005 + tokens_output * 0.0015) / 1000

        # Send metrics to monitoring
        monitor.track({
            "event": "llm_call",
            "model": "gpt-3.5-turbo",
            "latency_ms": latency * 1000,
            "input_tokens": tokens_input,
            "output_tokens": tokens_output,
            "cost_cents": cost * 100,
            "user_id": user_id,
            "request_type": request_type,
            "status": "success"
        })

        return response.choices[0].message.content

    except Exception as e:
        monitor.track({
            "event": "llm_call",
            "status": "error",
            "error": str(e),
            "user_id": user_id
        })
        raise

Шаг 2. Отслеживайте стоимость в реальном времени#

Дневная агрегация:
- Всего запросов: 5 000
- Всего входных токенов: 2,5M
- Всего выходных токенов: 500K
- Общая стоимость: $18,50
- Стоимость одного запроса: $0,0037

Сравнение с бюджетом:
- Дневной бюджет: $25
- Использовано: $18,50 (74% бюджета)
- Остаток: $6,50

Шаг 3. Измеряйте качество вывода#

Для AI-поддержки клиентов:
1. После генерации ответа: спросите «Это было полезно?»
2. Если 👎 → отметить как ответ низкого качества
3. Отслеживайте: какой % ответов оценён как полезный?

Базис: 90% полезных
После деплоя: 75% полезных
Алерт: качество просело на 15 пунктов

Шаг 4. Настройте алерты#

Critical (поднимать дежурного):

  • Стоимость/час >5× нормы (сигнал о неконтролируемом использовании LLM)
  • Ошибки 429 (LLM API упёрся в лимит)
  • Доля галлюцинаций >10%
  • Полезность по рейтингу пользователей <50%

Warning (алерт в Slack):

  • Стоимость/час >2× нормы
  • Латентность P95 >10 секунд
  • Глубина очереди >500 запросов
  • Доля галлюцинаций >5%

Info (ежедневный дайджест):

  • Тренды стоимости (растут ли траты?)
  • Сравнение производительности моделей
  • Тренды фидбека пользователей

Распространённые ошибки в мониторинге AI#

Ошибка 1. Не мониторить использование токенов#

Что происходит: ваше приложение вызывает LLM со всё более длинным контекстом. Использование токенов растёт. Стоимость растёт. Вы замечаете, только когда месячный счёт приходит в 10 раз больше ожидаемого.

Решение: отслеживайте токены на запрос. Алерт, если число токенов выросло >50%.

Ошибка 2. Измерять только скорость ответа, а не качество#

Что происходит: вы оптимизируете под латентность. Модель становится быстрее, но галлюцинирует больше. Пользователи теряют доверие. Выручка падает.

Решение: мониторьте И латентность, И качество (доля галлюцинаций, фидбек пользователей).

Ошибка 3. Не отслеживать статус LLM API#

Что происходит: у OpenAI авария. Ваши запросы накапливаются. Пользователи ждут 30+ секунд. Вы думаете, что сломан ваш код.

Решение: мониторьте здоровье OpenAI API отдельно. Понимайте, на чьей стороне проблема.

Ошибка 4. Один и тот же алерт стоимости на разные модели#

Что происходит: вы выставили алерт «стоимость >$10/день». Это работает для GPT-3.5. Но вы добавили GPT-4 (дороже). Теперь алерт срабатывает постоянно.

Решение: алерты стоимости — отдельно по моделям. GPT-3.5: $10/день. GPT-4: $50/день.

Ошибка 5. Не мониторить фидбек пользователей#

Что происходит: AI галлюцинирует. Традиционный мониторинг говорит «всё работает». Пользователи получают неверную информацию.

Решение: просите оценивать ответы. Отслеживайте оценки. Алерт, если падают.

Ошибка 6. Игнорировать стоимость на пользователя#

Что происходит: запросы одного пользователя стоят $10/мес. Подписка с него — $5/мес. Вы теряете деньги на этом пользователе.

Решение: отслеживайте стоимость на пользователя. Алерт, если затраты на пользователя превышают его вклад в выручку.


Инструменты мониторинга AI (статус 2026)#

Встроенный мониторинг LLM:

  • Langsmith (мониторинг LangChain) — отслеживает вызовы LLM из LangChain
  • Дашборд OpenAI API — базовый трекинг токенов/стоимости
  • Консоль Anthropic — использование Claude API

Общие APM-инструменты (с поддержкой AI):

  • Datadog — добавили мониторинг LLM (стоимость, латентность, качество)
  • New Relic — добавили трекинг LLM
  • Dynatrace — добавили мониторинг AI

Специализированный мониторинг AI:

  • Arize — мониторинг AI-моделей (обнаружение галлюцинаций, drift)
  • Whylabs — мониторинг качества моделей
  • Arthur.ai — governance и мониторинг AI

Лучшая связка: Langsmith или консоль Anthropic для специфики LLM + Datadog для корреляции с метриками приложения.


Реальный пример мониторинга AI#

Сценарий: чат-бот поддержки клиентов на GPT-4

Базовые метрики:

  • Запросов/день: 10 000
  • Среднее число входных токенов: 1 500
  • Среднее число выходных токенов: 300
  • Стоимость: $65/день
  • Рейтинг пользователей: 88% полезно
  • Доля галлюцинаций: 1%

После апдейта продукта (добавили контекст):

  • Запросов/день: 10 000 (без изменений)
  • Среднее число входных токенов: 3 500 (+133%)
  • Среднее число выходных токенов: 300 (без изменений)
  • Стоимость: $116/день (+78%)
  • Рейтинг пользователей: 92% полезно (+4%)
  • Доля галлюцинаций: 0,5% (−50%)

Анализ:

  • Стоимость выросла на 78%, но качество улучшилось
  • Расчёт ROI: дополнительные $51/день × 30 дней = $1 530/мес
  • Профит: на 4% больше пользователей считают ответ полезным
  • При 10 000 пользователей/день рост на 4% = 400 дополнительно довольных пользователей в день
  • Ценность: предотвращение эскалаций в поддержку (экономия $5 за каждую предотвращённую)
  • Точка безубыточности: 306 предотвращённых эскалаций/мес = $1 530

Решение: рост стоимости оправдан. Апдейт продукта повысил удовлетворённость достаточно, чтобы перекрыть затраты на LLM.

Без мониторинга AI: решение принимается вслепую, по ощущениям.


Итог: мониторинг AI-приложений#

AI-приложениям нужен мониторинг шире классических метрик производительности:

  1. Мониторинг стоимости — отслеживайте использование токенов и траты в реальном времени. Алерты на аномалии стоимости.
  2. Мониторинг качества — измеряйте качество вывода AI (доля галлюцинаций, фидбек пользователей).
  3. Мониторинг латентности — отслеживайте время ответа LLM и глубину очереди.
  4. Алерты по бюджету — предупреждайте до того, как перерасходуете на LLM API.
  5. Фидбек пользователей — собирайте оценки, чтобы измерять качество без ручного ревью.

Чек-лист быстрой реализации:

  • ✅ Инструментируйте все вызовы LLM с трекингом токенов
  • ✅ Считайте и отслеживайте стоимость на запрос
  • ✅ Контролируйте суммарные дневные/месячные траты против бюджета
  • ✅ Мониторьте латентность LLM API и rate limits
  • ✅ Собирайте фидбек по качеству ответа
  • ✅ Алертите на аномалии стоимости (>2× нормы)
  • ✅ Алертите на деградацию качества (рост доли галлюцинаций)
  • ✅ Отслеживайте различия производительности моделей
  • ✅ Мониторьте сдвиги в настроении пользователей
  • ✅ Задавайте бюджеты по фичам/пользователям/моделям

Мониторинг AI критичен для контроля затрат при сохранении качества. Разница между прибыльной и убыточной AI-фичей часто — это улучшение качества на 1–2% в сочетании с мониторингом стоимости.

Готовы мониторить AI-приложения? Начните с мониторинга доступности от Nova Uptime для вашего API, затем добавьте LLM-мониторинг через Langsmith или Datadog.

Monitor Your Website Before It Goes Down

Get uptime monitoring, SSL tracking, domain expiry alerts, and email health checks. Free plan — no credit card required.

Start Monitoring Free

Похожие статьи