Human-in-the-loop: как зарабатывать больше, а не «недоверять AI»

Автор: CrmAI Team
Опубликовано: 3 января 2025

Недавно на встрече с одним банком услышал знакомую фразу: «Мы не можем полностью доверить AI эту задачу — нужен человек для проверки». Директор по инновациям произнёс это извиняющимся тоном, будто признавался в технологической отсталости.

Я попросил его рассказать подробнее. Оказалось, речь шла о верификации кредитных заявок. AI анализировал документы, но финальное «да» или «нет» всегда говорил человек. И директор переживал — конкуренты хвастаются полной автоматизацией, а они «застряли в полумерах».

Через час расчётов на салфетке мы выяснили интересное: их «полумеры» экономили банку около 8 миллионов тенге в месяц. Потому что ошибка AI в кредитном решении стоит в среднем 150 тысяч. А зарплата оператора, который проверяет сомнительные случаи — копейки по сравнению с этим.

В этот момент я понял, что нужно об этом написать. Потому что половина рынка гонится за «полной автоматизацией» как за самоцелью. А вторая половина ставит человека везде «на всякий случай». И обе половины теряют деньги.

Human-in-the-loop как экономический инструмент: где человек добавляет прибыль

Вся суть — в одной формуле

Когда ставить человека в контур, а когда не ставить? Забудьте про «доверие к AI» и «технологическую зрелость». Вот единственный критерий:

Цена ошибки AI × Шанс ошибки > Стоимость проверки человеком

Левая часть больше — нужен человек. Меньше — не нужен. Это не вопрос философии. Это арифметика.

Почему одна ошибка бота стоит 200 тенге, а другая — 5 миллионов

Давайте начнём с неудобной правды: AI ошибается. Всегда. GPT-4 ошибается. Claude ошибается. Даже ваш идеально настроенный бот с кастомным промптом и RAG — тоже ошибается. Это не баг, это особенность вероятностных моделей.

Но вот что интересно: в одних случаях ошибка бота — это «ну, ладно, бывает». А в других — это судебный иск, потеря клиента или репутационная катастрофа. И вся магия human-in-the-loop в том, чтобы различать эти случаи.

История первая: когда ошибка — это просто ошибка

Интернет-магазин электроники. Бот в чате отвечает на вопросы о товарах. Клиент спрашивает: «Есть ли ноутбук Dell в наличии?» Бот отвечает: «Да, есть» — хотя на складе остался только один экземпляр, и его уже оформляет другой покупатель.

Что происходит дальше? Клиент кладёт товар в корзину, видит «нет в наличии», немного раздражается, выбирает другую модель или уходит. Потеря? Может, одна продажа. Может, ноль — клиент просто выберет другой ноутбук. В деньгах — от нуля до пары тысяч тенге упущенной прибыли.

Цена ошибки: 0–2 000 ₸. Жить можно.

История вторая: когда ошибка — это катастрофа

Страховая компания. Бот помогает оформлять полисы. Клиент спрашивает: «Покрывает ли моя страховка лечение за рубежом?» Бот уверенно отвечает: «Да, покрывает» — хотя в полисе этого клиента такой опции нет.

Клиент летит в отпуск, попадает в больницу, получает счёт на 3 миллиона тенге. Обращается в страховую — отказ. Показывает скриншот переписки с ботом. Дальше — суд, компенсация морального ущерба, статья в СМИ «Страховая обманула клиента с помощью бота», волна негатива в соцсетях.

Цена ошибки: 5 000 000+ ₸ (судебные издержки + репутация). Это другой разговор.

Давайте посчитаем на пальцах

Представьте: у вас есть бот, который отвечает правильно в 92% случаев. Неплохо, да? Но вот дальше начинается интересное.

Сценарий первый: бот отвечает на вопросы «где мой заказ?»

Тысяча таких вопросов в месяц. 8% ошибок — это 80 случаев, когда бот дал неточную информацию. Что делает клиент? Переспрашивает или звонит в поддержку. Раздражается немного — но не уходит к конкурентам из-за этого. Потери? Ну, пусть 200 тенге на случай (время оператора на повторный ответ). Итого: 16 000 тенге в месяц.

А теперь представьте, что вы решили поставить человека проверять каждый ответ бота. Один ответ — 500 тенге (время менеджера). Тысяча ответов — 500 000 тенге. Вы платите полмиллиона, чтобы предотвратить потери в 16 тысяч. Это как купить сигнализацию за миллион для защиты велосипеда.

Сценарий второй: бот одобряет кредитные заявки

Та же тысяча заявок, та же точность 92%. Но теперь каждая ошибка — это выданный кредит человеку, который не вернёт деньги. Средний невозврат — 150 000 тенге. 80 ошибок — 12 миллионов убытков в месяц.

Проверка человеком стоит дороже — скажем, 2000 тенге на заявку (кредитный аналитик получает больше). Тысяча заявок — 2 миллиона. Но 2 миллиона vs 12 миллионов — это шестикратная экономия.

Один и тот же бот. Одна и та же точность 92%. Но в первом случае человек — лишняя трата. Во втором — источник прибыли. Разница только в цене ошибки.

Пять ситуаций, когда человек в контуре — это не костыль, а золотая жила

Ладно, с арифметикой разобрались. Но в реальной жизни не будешь же перед каждым решением доставать калькулятор? Давайте пройдёмся по типичным случаям — где человек окупается практически всегда.

Первая: когда на кону большие деньги

Агентство недвижимости внедрило бота для первичной консультации клиентов. Бот отвечал на вопросы про районы, цены, ипотеку. Работал неплохо — клиенты хвалили.

А потом один клиент спросил про конкретный объект за 45 миллионов. Бот уверенно ответил, что квартира свободна и можно записаться на просмотр. На самом деле квартира была продана неделю назад — просто база не обновилась.

Клиент приехал, узнал правду, разозлился и ушёл. Не просто ушёл — а ушёл к конкуренту. Вместе с комиссией в 1,35 миллиона тенге.

После этого агентство добавило правило: любой запрос с суммой выше 30 миллионов — сначала проверяет живой менеджер. Время ответа выросло с 10 секунд до 15 минут. Зато за год — ни одной потерянной крупной сделки из-за бота.

Принцип: Чем больше сумма сделки — тем ниже порог для подключения человека. Когда чек в десятках миллионов, даже одна потерянная сделка в квартал окупает годовую зарплату менеджера.

Вторая: когда нельзя отмотать назад

Бот онлайн-банка умел переводить деньги по команде клиента. Удобно: «Переведи 50 000 на карту жены» — и готово. Пока однажды бот не понял «на карту жены» как «на карту Марии» — а у клиента в контактах было две Марии. Деньги ушли не той.

Вернуть перевод? Технически возможно — но только если получатель согласится. А если не согласится? Суд, нервы, репутационные потери.

Теперь перед любым переводом бот показывает: «Перевести 50 000 на карту Мария Иванова, **** 4523. Подтвердите.» Клиент нажимает кнопку — и только тогда деньги уходят. Лишние 5 секунд? Да. Но и судебных исков — ноль.

Принцип: Если действие нельзя отменить — перед ним должно быть человеческое подтверждение. Отправка денег, подписание договора, публикация от имени бренда, удаление данных — всё это требует кнопки «Да, я уверен».

Третья: когда этого требует закон

Финтех-стартап решил полностью автоматизировать выдачу микрозаймов. AI анализировал заявку, скоринговая модель принимала решение, деньги уходили на карту — всё за 3 минуты. Красиво.

А потом пришёл регулятор. И объяснил, что по закону решение о выдаче кредита должен принимать человек. Не рекомендовать — а именно принимать. С подписью и ответственностью.

Пришлось перестраивать весь процесс. Теперь AI готовит решение, но финальную кнопку нажимает кредитный офицер. Да, это медленнее. Но штраф за нарушение — до 10 миллионов. А штрафовать любят.

Принцип: Проверьте регуляторные требования ДО внедрения. Финансы, медицина, страхование, HR — везде есть области, где закон требует человеческого участия. Экономия на автоматизации не стоит штрафа и отзыва лицензии.

Четвёртая: когда клиент на взводе

Авиакомпания. Рейс задержали на 6 часов. Пассажир пишет в чат поддержки — злой, уставший, с маленьким ребёнком на руках. Бот бодро отвечает: «Приносим извинения за неудобства! Вы можете получить ваучер на 5000 тенге в нашем приложении.»

Пассажир фотографирует этот ответ и публикует в Twitter с комментарием: «6 часов с ребёнком в аэропорту — и мне предлагают ваучер на кофе». 15 000 репостов. Статья в Forbes Kazakhstan. HR-директор звонит в пятницу вечером с вопросом «что это за бот у вас».

Сейчас у этой авиакомпании работает детектор эмоций. Видит слова «безобразие», «суд», «позор», «ребёнок», «журналист» — и сразу переключает на живого человека. Человек умеет то, что не умеет бот: искренне посочувствовать и найти нестандартное решение.

Принцип: Эмоционально заряженные ситуации требуют человеческого участия. Один неудачный ответ бота злому клиенту может стоить миллионы в репутационных потерях. Настройте детекцию «горячих» обращений.

Пятая: когда сам AI говорит «не уверен»

Хороший AI — честный AI. Он не просто даёт ответ, но и говорит, насколько в нём уверен. И это можно использовать.

Техподдержка SaaS-сервиса. Бот классифицирует обращения: это вопрос про биллинг, это — про интеграцию, это — баг в API. Для каждой классификации есть confidence score — число от 0 до 1.

Если бот уверен на 95% — обращение автоматически уходит нужному специалисту. Если уверен только на 60% — сначала смотрит координатор поддержки. Потратит 30 секунд, чтобы направить в правильный отдел. Зато клиент не будет три дня ждать ответа от wrong team.

Интересно, что порог 60% они нашли экспериментально. Сначала поставили 80% — слишком много ручной работы. Спустили до 50% — пошли ошибки маршрутизации. 60% оказалось оптимумом: минимум ручной работы при приемлемом качестве.

Принцип: Используйте confidence scoring. Пусть AI сам говорит, когда ему нужна помощь. Порог настраивайте экспериментально — считайте стоимость ошибок при разных значениях.

Схема: когда подключать человека — 5 экономически обоснованных ситуаций

А теперь — где человек только мешает

А теперь перевернём монету. Не все задачи требуют человеческого надзора. Бывает и так: впихнули человека «на всякий случай» — и сделали только хуже. Расскажу одну историю.

История про Марину и 500 сообщений в день

Интернет-магазин косметики. Поставили бота для ответов на простые вопросы: «когда доставка», «есть ли в наличии», «как вернуть товар». Руководитель отдела — перестраховщик — решил: «Пусть Марина проверяет все ответы перед отправкой, мало ли что».

Первую неделю Марина справлялась. Бот писал ответ, Марина смотрела, нажимала «отправить». Но потом пошла чёрная пятница. 500 сообщений в день. Марина физически не успевала. Очередь росла. Клиенты ждали ответа по 4 часа вместо 10 секунд.

Что сделала Марина? То, что сделал бы любой человек на её месте — начала «пролистывать». Глазами по диагонали, клик «отправить», следующее. К концу дня она пропускала 80% ответов, даже не читая.

Итог? Компания платила зарплату Марине, клиенты ждали часами, а качество проверки — нулевое. Тройной проигрыш.

Когда человек лишний?

Когда цена ошибки копеечная — FAQ, статус заказа, часы работы. Клиент переспросит, и ничего страшного не случится. Когда поток сообщений превращается в лавину — сотни в день, и человек физически не успевает читать, начинает пролистывать и сам становится источником косяков. Когда действие можно откатить — проще исправить пять ошибок постфактум, чем проверять сотню заранее.

И вот ещё что забавно: в рутинных задачах AI часто надёжнее человека. Особенно в три часа ночи. Бот в ночную смену работает так же, как днём. А человек — делает вдвое больше ошибок от усталости.

Три способа встроить человека в процесс

Допустим, вы решили: без человека никак. Но где его поставить — в начале, в конце, или как-то хитрее? От этого зависит, насколько ваш процесс будет быстрым и насколько надёжным.

Способ первый: «Сначала покажи мне»

Самый консервативный вариант. Бот готовит ответ или решение, но не отправляет — кладёт в очередь для человека. Человек смотрит, одобряет или правит, потом уже уходит клиенту.

Идеально для юридических документов, ответов от имени CEO, публикаций в соцсетях бренда — везде, где одна ошибка может дорого обойтись, а объём небольшой.

А вот для массовых запросов — беда. Представьте: человек спрашивает «сколько стоит доставка?» и ждёт два часа, пока менеджер одобрит очевидный ответ. Угадайте, куда он уйдёт за эти два часа.

Способ второй: «Делай, а я посмотрю потом»

Противоположный подход. Бот работает автономно, отвечает сразу. А человек в конце дня (или недели) смотрит выборку — 5-10% всех диалогов. Ищет косяки, паттерны ошибок, возможности улучшить промпт.

Отлично подходит для FAQ, статусов заказов, простых вопросов — там, где ошибка стоит копейки и легко правится.

Но есть подвох: если действие необратимо — вы узнаете об ошибке слишком поздно. Бот одобрил кредит мошеннику, а вы обнаружили это через неделю, когда деньги уже не вернуть. Упс.

Способ третий: «Умная маршрутизация»

Это то, что реально работает в большинстве случаев. Бот сам решает, когда ему нужна помощь, а когда он справится сам.

Как это выглядит на практике? Бот смотрит на сумму — если больше полумиллиона, зовёт человека. Проверяет свою уверенность — если меньше 80%, лучше перестраховаться. Чувствует, что клиент на взводе — мгновенно переключает на живого оператора. VIP-клиент? Тоже человек. А всё остальное — справляется сам.

Результат: 70-80% запросов обрабатываются мгновенно. 20-30% уходят человеку — но это именно те 20-30%, где человек реально нужен.

Три стратегии HITL: проверка до, после, и гибридная маршрутизация

Как это выглядит в реальной жизни: четыре истории внедрения

Хватит абстракций — посмотрим, как это работает в живых компаниях. Четыре разных подхода, четыре разных результата.

Юридическая фирма: очередь на подтверждение

Крупная юрфирма использует AI для подготовки ответов клиентам. Бот анализирует запрос, поднимает релевантные документы из базы знаний, генерирует черновик ответа.

Но отправлять этот черновик напрямую клиенту? Никогда. Юридическая ошибка может стоить миллионы. Поэтому каждый ответ попадает в очередь для юриста. Юрист видит три кнопки: «Отправить как есть», «Редактировать», «Переписать с нуля».

В 70% случаев юрист нажимает «Отправить как есть» — бот справился. В 25% — редактирует одну-две фразы. В 5% — переписывает. Но эти 5% спасают фирму от потенциальных исков.

Результат: Время подготовки ответа сократилось с 2 часов до 20 минут. При этом качество не пострадало — потому что человек остался в контуре.

Телеком-оператор: эскалация по триггерам

Бот техподдержки обрабатывает 80% обращений полностью автономно. Но у него есть чутьё на неприятности.

Клиент в третий раз написал «хочу оператора»? Бот не спорит — мгновенно передаёт человеку. В сообщении мелькнуло слово «прокуратура» или «суд»? Немедленная эскалация, тут не до шуток. Тон разговора вдруг стал колючим? В чат тихо, без лишнего шума, подключается супервайзер — следит за ситуацией, готов вмешаться в любой момент.

Результат: 80% диалогов — чистая автоматизация. 20% — с человеком. Но эти 20% — именно те случаи, где человек может предотвратить скандал или потерю клиента.

E-commerce: выборочный аудит

Маркетплейс с миллионом сообщений в месяц. Проверять каждое физически невозможно. Поэтому бот работает автономно, а человек проверяет выборку.

Как это устроено: 5% всех диалогов случайным образом попадают в «аудит-очередь». Раз в день QA-специалист проходит по ним, ставит оценки: правильно/неправильно, полно/неполно, тон подходящий/неподходящий.

Если процент ошибок начинает расти — это сигнал: что-то сломалось. Может, обновили промпт и он стал хуже работать. Или появился новый тип запросов, с которым бот не справляется.

Результат: Полная автоматизация с контролем качества. Проблемы ловятся в течение дня, а не когда клиенты уже разбежались.

Банк: AI проверяет AI

Самое интересное решение. Банк обрабатывает тысячи платёжных поручений в день. Каждое нужно проверить: правильные ли реквизиты, нет ли признаков мошенничества, соответствует ли сумма лимитам.

Поставить человека на каждое? Нереально. Пропустить без проверки? Опасно. Решение: два AI работают параллельно.

Первый AI анализирует платёж по одной методике. Второй — по другой (другой промпт, другой набор правил). Если оба говорят «всё в порядке» — платёж проходит автоматически. Если мнения расходятся — уходит человеку.

Результат: 95% платежей обрабатываются за секунды. 5% смотрит человек — и это именно те 5%, где есть реальное сомнение. Вместо тысячи платежей в день оператор проверяет 50 — но самых подозрительных.

Как понять, что всё работает как надо

Настроили, запустили — а дальше что? Откуда знать, что всё работает как задумано? Что вы не переплачиваете за лишние проверки и не пропускаете важные случаи?

Вот на что стоит поглядывать.

Процент автоматизации

Какая доля запросов обрабатывается полностью без человека? Если меньше 50% — возможно, вы перестраховываетесь. Если больше 95% — возможно, пропускаете важные случаи.

Для большинства задач здоровый диапазон — 70-85%. Но это зависит от специфики. В поддержке интернет-магазина можно и 90%. В медицинских консультациях — может быть и 30%.

Процент overrides

Это мой любимый показатель. Когда запрос приходит человеку — как часто он меняет решение бота? Если редко (меньше 10%) — возможно, человек тут лишний, бот и сам справляется. Если часто (больше 30%) — возможно, бот плохо работает и нужно улучшать промпт или модель.

Идеальный диапазон — 10-20%. Это значит: человек нужен именно там, где бот сомневается. И не нужен там, где бот уверен.

Стоимость обработки

Сколько стоит обработать один запрос автоматически vs с участием человека? Обычно разница — в 10-50 раз. Автоматический ответ — 5-20 тенге (токены AI). С человеком — 200-500 тенге (время менеджера).

Если ваш средний cost per resolution вырос — посмотрите, не увеличился ли процент эскалаций. Может, что-то сломалось в детекции, и человеку уходит слишком много простых случаев.

Как улучшать со временем

Human-in-the-loop — это не «настроил и забыл». Это живой организм, который нужно подкармливать вниманием.

Каждую неделю заглядывайте в overrides — почему человек менял решения бота? Вдруг там есть закономерность, которую можно научить бота самого.

Раз в месяц потрясите пороги. Бот поумнел — можно отпустить поводья посвободнее. Появились новые типы запросов — возможно, пора добавить правило маршрутизации.

А раз в квартал садитесь с калькулятором и честно считайте: сколько сэкономили на автоматизации, сколько потеряли на ошибках, где ещё можно подкрутить?

Вместо заключения: история со счастливым концом

Помните банк из начала статьи? Тот, где директор переживал из-за «полумер» с человеческой проверкой кредитов?

Через полгода мы снова встретились. Он рассказал, что конкуренты, которые хвастались полной автоматизацией — получили крупные убытки от мошеннических заявок. А его банк прошёл тот же период без потерь. Потому что сомнительные случаи смотрел человек.

«Знаете, — сказал он, улыбаясь, — раньше я думал, что мы отстаём. Что боимся довериться технологиям. А теперь понимаю: мы просто умеем считать».

В этом вся суть. Human-in-the-loop — это не про недоверие к AI. Это про понимание, что у разных ошибок разная цена. Где цена высокая — ставим человека. Где низкая — не ставим.

Так что вот вам домашнее задание: посчитайте стоимость своих ошибок. Найдите те точки, где человек реально окупается. И хватит уже извиняться за «неполную автоматизацию» — умная автоматизация никогда не бывает стопроцентной. Она бывает оптимальной.

Хотите найти свой оптимум?

Посмотрим вместе на ваши процессы: где бот справляется сам, где нужен человек, а где вы переплачиваете за лишнюю проверку. Посчитаем цену ошибок, нарисуем правила маршрутизации, настроим метрики. Чтобы вы платили за человека только там, где он реально приносит деньги.

Обсудить

Если хотите копнуть глубже

Бот иногда несёт чушь? У нас есть разбор как бороться с галлюцинациями. Непонятно, хорошо ли он работает — почитайте про метрики качества и тестирование диалогов.

Хотите разобраться с деньгами? Вот как посчитать ROI автоматизации, сколько на самом деле стоят токены и во что обходится каждый потерянный лид.

Беспокоитесь о рисках? Тогда сюда: AI Governance для серьёзных компаний, юридические подводные камни ботов, как защитить LLM от атак.

К предыдущей статье Все статьи блога

Теги:

Human-in-the-loop,
HITL,
AI автоматизация,
ROI,
Гибридная автоматизация

Услуги по теме статьи

Все услуги

AI-боты для входящих обращений

Запускаем голосовые и чат-боты на GPT-4o, Claude, Gemini. Отвечают как люди, знают продукт, собирают лиды в CRM и не…

Омниканал без хаоса в одном окне

CrmAI собирает Telegram, WhatsApp, Instagram, email, сайт-чат и телефонию в единую очередь: единые SLA, сценарии и…

Интеграции и автоматизация процессов

Подключаем CRM, ERP, helpdesk и маркетплейсы к CrmAI. Бот и операторы видят данные, триггеры запускают процессы без…