Бот вроде работает. Отвечает на вопросы, создаёт заявки, иногда переводит на операторов. Но насколько хорошо? Сколько клиентов реально довольны? На чём он спотыкается? И главное — окупает ли он себя?
Без нормального мониторинга AI-бот — чёрный ящик. Что там происходит — непонятно, пока не прилетит жалоба или не упадут продажи.
Дальше — конкретика: какие метрики реально важны, как собрать адекватный дашборд и когда пора паниковать.
Три причины держать руку на пульсе:
Модель, которая отлично работала на старте, постепенно сдаёт позиции. Контекст меняется, появляются новые вопросы, старые ответы устаревают. Если не следить — однажды обнаружите, что бот несёт чушь.
Получив кривой ответ, большинство клиентов не станут писать в поддержку. Они просто закроют чат и уйдут к конкурентам. Молча. А вы даже не узнаете.
Токены, серверы, поддержка — всё стоит денег. Без метрик вы понятия не имеете, окупается это или сливает бюджет.
Метрики бота удобно разложить на три слоя — каждый для своей аудитории:
| Уровень | Что измеряем | Для кого |
|---|---|---|
| Качество AI | Точность, галлюцинации, релевантность | AI/ML команда, product |
| Эффективность | Resolution rate, handoff rate, время ответа | Operations, support |
| Бизнес-результат | Конверсия, revenue, CSAT, cost per conversation | CEO, product, маркетинг |
Первый уровень — понять, насколько хорошо мозги бота справляются с работой.
Что измеряем: Процент правильных ответов от общего числа.
Как измерять:
Целевое значение: >85% для простых FAQ, >75% для сложных сценариев
Что измеряем: Процент ответов с выдуманными фактами.
Как измерять:
Целевое значение: <5%
Что измеряем: Насколько ответ соответствует вопросу.
Как измерять:
Целевое значение: >90%
Что измеряем: Распределение confidence scores в ответах.
Зачем: Ответы с низкой уверенностью — кандидаты на handoff или улучшение.
Второй уровень — насколько хорошо бот тянет операционную нагрузку.
Что измеряем: Процент диалогов, завершённых без участия оператора.
Формула: (Диалоги без handoff / Все диалоги) × 100%
Целевое значение: 60-80% для поддержки, 40-60% для продаж
Что измеряем: Процент вопросов, решённых с первого обращения.
Зачем: Низкий FCR = клиенты возвращаются с тем же вопросом = бот не решил проблему.
Целевое значение: >70%
Что измеряем: Процент диалогов, переданных оператору.
Важно: Низкий handoff — не всегда хорошо. Бот может неправильно отвечать вместо передачи.
Анализ: Смотреть в связке с качеством ответов
Что измеряем: Время от сообщения пользователя до ответа бота.
Целевое значение: <3 секунды для простых ответов, <10 секунд для RAG
Что измеряем: Общее время диалога до решения вопроса.
Зачем: Даже если бот отвечает быстро, 20 сообщений туда-обратно — плохой UX.
Третий уровень — что реально думают клиенты и как себя ведут.
Что измеряем: Оценка пользователя после диалога (1-5 или thumbs up/down).
Как собирать:
Целевое значение: >80% положительных
Что измеряем: Готовность рекомендовать (0-10).
Формула: % промоутеров (9-10) − % критиков (0-6)
Целевое значение: >30 для B2B, >50 для B2C
Что измеряем: Процент пользователей, покинувших диалог без завершения.
Анализ: На каком шаге уходят? Какой был последний вопрос бота?
Целевое значение: <30%
Что измеряем: Процент пользователей, вернувшихся к боту повторно.
Варианты: D1 (на следующий день), D7, D30 retention
Интерпретация: Зависит от сценария. Для FAQ — низкий retention может быть нормой (решили вопрос).
Финальный уровень — то, что интересует руководство: влияние на выручку и затраты.
Что измеряем: Процент диалогов, приведших к целевому действию.
Примеры целей:
Что измеряем: Средняя выручка с одного диалога.
Формула: Общая выручка от бота / Количество диалогов
Что измеряем: Стоимость одного диалога.
Компоненты:
Что измеряем: Экономия по сравнению с полностью человеческой поддержкой.
Формула: (Стоимость оператора × Диалоги бота) − Стоимость бота
Метрики бесполезны, если нет данных. Что нужно логировать:
{
"conversation_id": "conv_12345",
"timestamp": "2025-12-16T14:30:00Z",
"user_id": "user_abc",
"channel": "telegram",
"messages": [
{
"role": "user",
"content": "Какие у вас сроки доставки?",
"timestamp": "2025-12-16T14:30:00Z"
},
{
"role": "assistant",
"content": "Доставляем за 2-3 рабочих дня по Москве...",
"timestamp": "2025-12-16T14:30:02Z",
"latency_ms": 1850,
"model": "gpt-4o",
"tokens_input": 150,
"tokens_output": 85,
"confidence": 0.92
}
],
"outcome": "resolved",
"handoff": false,
"csat": 5
}
Идеальный дашборд — это ответ на вопрос «всё ли в порядке?» за 10 секунд.
87%Resolution Rate |
92%CSAT |
2.1sAvg Response Time |
60 ₸Cost per Conv |
Глазами на дашборд смотреть 24/7 не получится. Настройте алерты — пусть система сама кричит, когда что-то идёт не так.
| Метрика | Порог | Severity | Действие |
|---|---|---|---|
| Error rate | >5% | Critical | Slack + PagerDuty |
| Latency P95 | >10s | Warning | Slack |
| Resolution rate | <60% | Warning | Email daily |
| CSAT | <70% | Warning | Email weekly |
| Cost spike | >2x нормы | Warning | Slack + review |
| Hallucination detected | Любой факт | Critical | Slack + review |
Собирать метрики ради метрик — бессмысленно. Смысл появляется, когда вы на их основе делаете бота лучше.
| Проблема | Индикатор | Решение |
|---|---|---|
| Бот не знает ответ | Частый handoff по теме X | Добавить в базу знаний |
| Неточный ответ | Низкий CSAT на вопросе Y | Улучшить промпт, добавить примеры |
| Галлюцинации | Жалобы на выдуманные факты | Ужесточить grounding, добавить проверку |
| Медленные ответы | High latency | Кэширование, оптимизация промптов |
| Высокая стоимость | Cost per conv растёт | Использовать cheaper модели для простых запросов |
Для специфических требований можно собрать своё:
Не надо внедрять всё и сразу — утонете. Вот реалистичный план:
Мы настраиваем системы мониторинга для AI-ботов: дашборды, алерты, continuous improvement процессы. Работаем с LangSmith, Datadog, Grafana.
Обсудить проектЧто запомнить:
Без мониторинга вы не управляете ботом — вы просто надеетесь, что всё как-нибудь само.