Ержан, коммерческий директор дистрибьюторской компании в Алматы, был уверен, что его CRM-система работает как часы. Данные вроде бы заносились, отчёты формировались, менеджеры кликали по кнопкам. А потом пришла команда аудиторов, которые готовили компанию к продаже.
«Они попросили выгрузку клиентской базы. Мы отдали — 47 000 контактов. Гордились. А через три дня вернулись с вердиктом: реальных уникальных клиентов — около 28 000. Остальное — дубликаты, мёртвые контакты и "тестовые записи". Из 28 000 полноценно заполнены только 12 000. У трети нет телефона или email. И это база, которую мы собирали восемь лет», — вспоминает Ержан.
Оценка компании упала на 15%. Не потому что бизнес плохой — а потому что данные, на которых он работает, оказались «грязными». И это не исключение. По данным Gartner, средняя компания теряет 12-15% годовой выручки из-за проблем с качеством данных. А IBM оценивает глобальные потери экономики от плохих данных в 3,1 триллиона долларов ежегодно.
Хорошая новость: качество данных можно измерить, контролировать и улучшить. И для этого не нужен штат data-инженеров — достаточно понимать принципы и системно их применять. Об этом и поговорим.
«Когда мы внедрили автоматический расчёт DQ score, стало понятно, почему отдел продаж жаловался на "неработающие лиды". 40% входящих заявок приходили с некорректными телефонами или без имени. Мы думали, что проблема в конверсии — а проблема была в данных на входе.»
Честно? Когда заходит речь о «качестве данных», большинство руководителей начинают скучать. Звучит как что-то для айтишников, техническое и далёкое от реальности. А зря.
Плохие данные — не абстракция. Это конкретные потери, которые можно посчитать в тенге.
Представьте типичный день менеджера по продажам. У него в CRM список из 50 контактов на обзвон. Он начинает звонить:
Итого: 23 контакта из 50 — мусор. Менеджер потратил 2 часа на бесполезные действия. Умножьте на 10 менеджеров, на 20 рабочих дней в месяц — получаете 400 часов потерянного времени. При средней зарплате менеджера это сотни тысяч тенге ежемесячно. И это только прямые потери — мы ещё не считаем упущенные сделки и испорченную репутацию.
До 30% рабочего времени тратится на работу с некорректными данными: поиск актуальной информации, исправление ошибок, дозвоны по неработающим номерам.
Лиды без контактов, дубли которые никто не обрабатывает, «забытые» клиенты — всё это деньги, которые вы не заработали.
Отчёты на основе грязных данных дают искажённую картину. Вы думаете, что конверсия 5%, а реально — 8%. Или наоборот.
Машинное обучение на плохих данных даёт плохие результаты. «Garbage in — garbage out» — классика data science.
DQ score (Data Quality Score) — количественная оценка качества данных. Одна цифра, которая показывает: «Ваши данные в порядке на 78%» или «Всё плохо — качество 42%».
Зачем единая метрика? По той же причине, почему врачи меряют температуру, а не спрашивают «как вы себя чувствуете». Цифра позволяет:
Качество данных — не один показатель, а набор из нескольких. Классика — шесть параметров:
| Параметр | Что означает | Пример проблемы |
|---|---|---|
| Полнота (Completeness) | Все необходимые поля заполнены | Контакт без email, сделка без суммы, компания без отрасли |
| Точность (Accuracy) | Данные соответствуют реальности | Телефон с опечаткой, неверный адрес, устаревшая должность |
| Уникальность (Uniqueness) | Нет дубликатов записей | Один клиент в базе 3 раза с разными написаниями имени |
| Актуальность (Timeliness) | Данные свежие и релевантные | Контакт не обновлялся 3 года, человек давно сменил работу |
| Согласованность (Consistency) | Данные не противоречат друг другу | В одном поле «Алматы», в другом «Almaty», в третьем «г. Алма-Ата» |
| Валидность (Validity) | Данные соответствуют правилам формата | Email без @, телефон с буквами, дата в будущем |
Общий DQ score — это взвешенная комбинация этих параметров. Веса зависят от вашего бизнеса. Для колл-центра критична точность телефонов. Для email-маркетинга — валидность email. Для аналитики — полнота и согласованность.
DQ Score = (w1 × Completeness + w2 × Accuracy + w3 × Uniqueness + ...) / (w1 + w2 + w3 + ...)
Пример для CRM отдела продаж:
Хватит теории, давайте к цифрам. Как конкретно это считать?
Самый простой параметр для измерения. Берём список обязательных полей и считаем процент заполненных.
Completeness = (Количество заполненных обязательных полей / Общее количество обязательных полей) × 100%
Важно: Не все поля одинаково важны. Имя и телефон — критичны. Отчество и дата рождения — желательны, но не обязательны. Определите «обязательный минимум» для вашего бизнеса.
Для CRM-системы отдела продаж обычно обязательны:
Сложнее измерить, потому что требуется сверка с реальностью. Но есть способы:
Считаем дубликаты. Это можно автоматизировать.
Uniqueness = (1 − Количество дубликатов / Общее количество записей) × 100%
Но что считать дубликатом? Вот критерии для CRM:
Когда данные последний раз обновлялись или подтверждались?
Timeliness = (Количество записей с обновлением за последние N месяцев / Общее количество активных записей) × 100%
Что считать «обновлением»:
Период N зависит от бизнеса. Для B2C ритейла — 6 месяцев. Для B2B с длинным циклом — 12-18 месяцев.
Данные не противоречат друг другу и используют единые стандарты.
Примеры проверок:
Данные соответствуют заданным правилам формата.
Validity = (Количество записей, прошедших валидацию / Общее количество записей) × 100%
Что проверять:
Проанализируем вашу CRM-базу, рассчитаем DQ score и дадим конкретные рекомендации по улучшению качества данных.
Заказать аудит данныхИзмерить качество один раз — недостаточно. Нужна система, которая будет мониторить DQ score непрерывно и сигнализировать о проблемах. Вот как её выстроить.
Первая линия защиты — не допускать грязные данные в систему. Это дешевле, чем чистить потом.
Важно соблюдать баланс. Слишком строгая валидация раздражает пользователей и замедляет работу. Слишком мягкая — пропускает мусор. Начните с минимума и ужесточайте по мере необходимости.
Даже с хорошей валидацией данные деградируют со временем. Клиенты меняют телефоны, компании переезжают, люди увольняются. Нужны периодические проверки.
Что делать:
Не ждите, пока качество упадёт критически. Настройте уведомления:
Обязательные поля, маски ввода, справочники, проверка дубликатов
ПревентивныйЕженедельный DQ score, ежемесячный анализ, квартальный аудит
ДетективныйПороговые значения, уведомления, эскалация проблем
РеактивныйИзмерили качество — и оно не радует. Что делать? Вот методы, которые работают.
Дубликаты — самая распространённая проблема. И самая раздражающая для клиентов: им звонят несколько раз разные менеджеры, приходят одинаковые письма.
Шаг 1: Найти дубликаты
Используйте инструменты нечёткого сравнения (fuzzy matching). Они находят записи, которые похожи, но не идентичны:
Шаг 2: Решить, что делать с дубликатами
Варианты:
Шаг 3: Предотвратить появление новых
Настройте проверку на дубликаты при создании записей. Система должна предупреждать: «Похожий контакт уже существует. Создать новый или открыть существующий?»
Пустые поля — вторая по распространённости проблема. Как заполнить?
Телефоны записаны в десятке форматов, города — на трёх языках. Как привести к единому виду?
Не все данные нужно чистить — некоторые достаточно убрать из активной работы.
Правила архивации:
Важно: архив — это не удаление. Данные сохраняются, но не мешают работе и не искажают статистику.
Еженедельно:
Ежемесячно:
Главная причина грязных данных — никто толком не отвечает за качество. «Это должен делать IT». «Нет, это маркетинг». «Мы думали, оно само». В результате — никто не отвечает, данные гниют.
| Роль | Зона ответственности | Конкретные задачи |
|---|---|---|
| Владелец данных (Data Owner) | Бизнес-руководитель (РОП, директор по маркетингу) | Определяет требования к данным, утверждает правила, отвечает за результат |
| Стюард данных (Data Steward) | Аналитик или администратор CRM | Мониторит DQ score, проводит очистку, готовит отчёты, управляет правилами |
| Пользователи данных | Менеджеры по продажам, маркетологи | Вносят данные корректно, сообщают о проблемах, актуализируют при контакте с клиентом |
| IT-поддержка | Технические специалисты | Настраивают валидацию, интеграции, инструменты дедупликации |
Правила без мотивации мертвы. Как заставить менеджеров заполнять данные нормально?
И обратное — не наказывайте за ошибки слишком жёстко. Иначе люди будут скрывать проблемы вместо того, чтобы их исправлять.
Если вы планируете или уже используете AI в CRM — lead scoring, прогнозирование оттока, AI-ассистентов — качество данных становится критически важным.
Почему? AI учится на ваших данных. Грязные данные — кривые выводы. Всё просто.
На выходе — модель, которая выглядит умной, но выдаёт ерунду. Или даже вредит.
Если вы хотите использовать машинное обучение на данных CRM, вот минимальные пороги качества:
| Параметр | Минимум для AI | Рекомендуемо |
|---|---|---|
| Общий DQ score | 75% | 85%+ |
| Полнота ключевых полей | 80% | 95%+ |
| Уникальность (без дубликатов) | 90% | 98%+ |
| Актуальность (обновлено за год) | 60% | 80%+ |
| История данных | 12 месяцев | 24+ месяцев |
Не дотягиваете до этих порогов? Сначала почистите, потом AI. Иначе выкинете деньги на решение, которое не работает, и разочаруетесь в технологии в целом.
У нас своя специфика, и её надо учитывать.
Три языка в активном использовании — казахский, русский, английский. Это создаёт проблемы согласованности:
Решение: Введите единый стандарт записи. Например: города — на русском по официальному названию, имена — как представился клиент, компании — по регистрации.
Казахстанские номера имеют особенности:
Решение: Валидация телефонов с учётом казахстанских кодов. Стандартизация в формат +7 XXX XXX XX XX.
Индивидуальный идентификационный номер (ИИН) и бизнес-идентификационный номер (БИН) — уникальные идентификаторы для физических и юридических лиц. Их наличие в CRM — отличный способ избежать дубликатов.
Совет: Для B2B сделайте БИН обязательным полем. Это решает 90% проблем с дубликатами компаний.
Если CRM интегрирована с Kaspi, 1С или другими локальными системами — качество данных зависит и от них. Проверяйте:
Проведём аудит качества данных в вашей CRM, рассчитаем DQ score и построим систему контроля качества.
Обсудить проектВернёмся к Ержану, с которого начали статью. После неприятного сюрприза с аудитом он решил системно заняться качеством данных. Вот что было сделано.
Месяц 1: Очистка
Месяц 2: Обогащение
Месяц 3: Процессы
| Метрика | До | После |
|---|---|---|
| DQ score | 54% | 87% |
| Полнота | 58% | 91% |
| Уникальность | 60% | 97% |
| Актуальность | 41% | 78% |
Рост DQ score
за 3 месяца
Рост конверсии звонков в сделки
«Самое неожиданное — это влияние на продажи, — говорит Ержан. — Мы думали, что чистим данные ради отчётности. А оказалось, что менеджеры стали работать на 20% эффективнее просто потому, что перестали звонить по неработающим номерам и разбираться с дублями».
Итак, вы решили навести порядок в данных. С чего начать?
Вернёмся к началу. Ержан потерял 15% оценки компании из-за грязных данных. Но история могла сложиться иначе: если бы он узнал о проблеме раньше, если бы система контроля качества работала всё это время.
Качество данных — это не техническая задача для IT-отдела. Это бизнес-задача, которая напрямую влияет на продажи, маркетинг, принятие решений и стоимость компании.
Ключевые выводы:
Начните с малого. Посчитайте DQ score сегодня. Найдите самую критичную проблему — дубликаты, пропуски, устаревшие данные. Исправьте её. Потом — следующую. Качество данных — это марафон, не спринт. Но каждый шаг делает ваш бизнес немного эффективнее.
И когда к вам придут аудиторы или инвесторы — ваши данные будут готовы.