«Мы хотим знать, какие лиды купят» — слышу это на каждой второй встрече. За этим стоит усталость от гадания и желание видеть цифры вместо ощущений. Предиктивная аналитика как раз об этом: посмотреть на сегодняшнего лида и оценить шанс, что он станет клиентом.

Сразу оговорка: это не магия. Алгоритм берёт ваши прошлые сделки, ищет закономерности и применяет их к новым лидам. Если в данных есть сигналы — он их найдёт. Если данные грязные или случайные — ничего полезного не выйдет. Хороший прогноз начинается с хороших данных, не с «умного AI».

Что такое предиктивная аналитика простыми словами

Опытный продажник смотрит на лида и говорит: «Этот купит». Почему? «Он из нашей отрасли, компания растёт, задавал правильные вопросы, скачал три whitepaper». Менеджер опирается на опыт — сотни прошлых лидов сформировали у него чутьё на покупателей.

Предиктивная аналитика делает то же самое, но масштабнее. Алгоритм анализирует тысячи сделок, находит признаки, связанные с покупкой, и применяет эти паттерны к новым лидам. На выходе — оценка вероятности: этот купит с шансом 70%, тот — с шансом 8%.

Отличие от интуиции: алгоритм не предвзят. Менеджер переоценивает лиды, похожие на его успешные кейсы. Алгоритм смотрит холодно на цифры — и иногда находит зависимости, которые человек пропустил бы.

Какие данные нужны для прогнозирования

Качество прогноза = качество данных. Банально, но именно тут рушатся проекты. Компания приходит с запросом «внедрить AI», открываем CRM — хаос: половина полей пустая, даты неправильные, источники лидов перепутаны.

Для прогнозов нужны данные нескольких типов. Фирмографика: отрасль, размер компании, география, возраст, динамика роста. Обычно обогащают из госреестров и справочников. Это контекст: продаём стартапу или холдингу.

Поведенческие данные: как лид взаимодействует с маркетингом. Открытия писем, просмотры страниц, скачивания, регистрации на вебинары. Это золото — показывает реальный интерес, а не просто наличие контакта в базе.

Данные о коммуникации с продажами: количество звонков, писем, встреч. Как быстро лид отвечает, что спрашивает, кто со стороны клиента участвует в переговорах — только маркетолог или уже финансы и ЛПР.

Исторические данные о конверсии: кто в итоге купил, кто нет. Без этого модель не обучить. Причём нужны оба исхода — и успехи, и провалы. Модель учится их различать.

Как работает модель изнутри

Без погружения в математику: модель смотрит на историю и ищет закономерности. Например, обнаруживает, что IT-компании на 50-200 человек, которые зашли на страницу цен и скачали case study, покупают с вероятностью 35%. А ритейл, подписавшийся только на рассылку — 3%.

Таких правил генерируются тысячи, и они работают в связке. Итоговая оценка — не сумма баллов, а комплексный результат. Поэтому ML обычно бьёт ручные скоринги с фиксированными весами.

Из алгоритмов чаще используют gradient boosting (XGBoost, LightGBM), логистическую регрессию, случайный лес. Логрег проще интерпретировать, бустинг обычно точнее. На практике тестируют несколько и выбирают лучший под конкретные данные.

Пример: как это выглядит в реальной компании

Реальный кейс: B2B SaaS-компания, 500 лидов в месяц, 8 менеджеров. Классика — все лиды обрабатывались одинаково, хотя понятно, что часть из них никогда не купит.

Начали с аудита. CRM оказалась в порядке: источники размечены, история ведётся, исходы фиксируются. Добавили данные из маркетинга — открытия писем, клики, визиты на сайт. Обогатили фирмографикой: отрасль, численность, год основания.

Обучили модель на двух годах истории. AUC-ROC — 0.78, хорошая различающая способность. Модель научилась отделять покупателей от «туристов». Что оказалось важным: количество заходов на страницу цен, участие в демо, размер компании 50-500 человек, несколько контактов из одной организации.

После внедрения скоринг появился прямо в CRM. Горячие лиды — в приоритет, холодные — на автоматический nurturing. За квартал конверсия выросла на 23%, команда та же. Менеджеры просто перестали тратить время на тех, кто не собирался покупать.

Подводные камни и ограничения

Теперь о том, где предиктивка ломается.

Модель учится на прошлом и ждёт, что будущее будет похожим. Вышел новый конкурент, изменилось законодательство, случился кризис — прогнозы поплывут. Модель нужно переобучать. Это не разовый проект, а процесс.

Проблема холодного старта: для обучения нужна история. Новый продукт, новый рынок — данных нет. Придётся накапливать статистику несколько месяцев, прежде чем модель станет полезной.

Интерпретируемость: современные модели — «чёрные ящики». Менеджер видит скор 85, но не понимает почему. Есть методы объяснения (SHAP, LIME), но это дополнительная сложность.

Риск самосбывающегося пророчества. Менеджер видит низкий скор — бессознательно «сливает» лида: звонит реже, старается меньше. Лид не покупает — но не потому что модель угадала, а потому что ему не продавали. Этот круг надо осознавать и ломать.

Как начать: практические шаги

Если решили внедрять — вот последовательность.

Аудит данных. Забудьте пока про алгоритмы. Откройте CRM: насколько заполнены карточки? Корректны ли данные? Есть ли история по закрытым сделкам — и выигранным, и проигранным? Без этого дальше бессмысленно.

Определите, что прогнозируете. Конверсию в продажу? В SQL? В демо? Это определяет структуру задачи. Начните с одного чёткого KPI.

Соберите данные. Выгрузите информацию о лидах за 1-2 года со всеми признаками. Это датасет для обучения. Чем больше — тем лучше, но качество важнее объёма.

Разработка и тест модели. Если есть data scientist — сделаете сами. Нет — привлеките вендора. Критично: тестировать модель на данных, которых она не видела при обучении.

Интеграция. Скор должен появляться там, где работают менеджеры — в CRM. Если нужно заходить в отдельную систему, никто не будет.

Обучение команды. Объясните, что скор значит, как его использовать, чего не ждать. Без этого инструмент не приживётся.

Метрики успеха: как понять, что работает

Запустили модель — как понять, что она работает? Точность прогнозов сама по себе ничего не говорит. Смотрите на бизнес.

Конверсия по сегментам скора. Разбейте лиды на группы: высокий, средний, низкий скор. Если у «горячих» конверсия сильно выше — модель работает. Если разницы нет — бесполезна.

Скорость реакции на горячих. Если менеджеры действительно приоритизируют, время отклика на high-score лиды должно сократиться.

Общая конверсия воронки. Если фокусировка работает — конверсия растёт при тех же усилиях.

Выручка на менеджера. Конечная цель — продуктивность. Если каждый закрывает больше благодаря правильной приоритизации — модель себя оправдывает.

Сколько это стоит и когда окупается

Затраты зависят от подхода. Готовые решения (Salesforce Einstein, HubSpot scoring) — входят в подписку, но кастомизация ограничена. Кастомная модель — нужен data scientist и время на разработку.

Ориентир: MVP можно запустить за 2-3 месяца и 500-800 тысяч тенге с внешней командой. Аудит, разработка, интеграция, обучение. Поддержка и переобучение — ещё 100-150 тысяч в месяц.

Окупаемость считается просто. Средний чек миллион, модель поднимает конверсию на 20%, 100 лидов в месяц — дополнительные 2 миллиона выручки. Проект окупается за месяц-два.

Реалистичный горизонт ROI — полгода. Первые месяцы уйдут на калибровку модели, обучение команды, выстраивание процессов. Сразу чуда не будет.

Итог

Предиктивная аналитика — не гадание, а систематическая работа с данными. Вместо интуиции (которая врёт чаще, чем кажется) — инструмент, обученный на тысячах сделок.

Модель — помощник, не оракул. Показывает вероятности, не гарантии. Лид с низким скором может стать крупнейшим клиентом при правильном подходе. Лид с высоким — уйти к конкуренту после ошибки в переговорах. Данные информируют, но решения остаются за людьми.

Если ваши продажи генерируют данные — используйте их. Каждая сделка, каждый проигранный тендер — информация, которая поможет выигрывать в будущем. Прошлое можно превратить в конкурентное преимущество.