Data quality в CRM: как измерять и повышать качество данных (DQ…
  • Данные
  • Автор: Команда CrmAI
  • Опубликовано:
Качество данных в CRM: измерение и повышение DQ score

Ержан, коммерческий директор дистрибьюторской компании в Алматы, был уверен, что его CRM-система работает как часы. Данные вроде бы заносились, отчёты формировались, менеджеры кликали по кнопкам. А потом пришла команда аудиторов, которые готовили компанию к продаже.

«Они попросили выгрузку клиентской базы. Мы отдали — 47 000 контактов. Гордились. А через три дня вернулись с вердиктом: реальных уникальных клиентов — около 28 000. Остальное — дубликаты, мёртвые контакты и "тестовые записи". Из 28 000 полноценно заполнены только 12 000. У трети нет телефона или email. И это база, которую мы собирали восемь лет», — вспоминает Ержан.

Оценка компании упала на 15%. Не потому что бизнес плохой — а потому что данные, на которых он работает, оказались «грязными». И это не исключение. По данным Gartner, средняя компания теряет 12-15% годовой выручки из-за проблем с качеством данных. А IBM оценивает глобальные потери экономики от плохих данных в 3,1 триллиона долларов ежегодно.

Хорошая новость: качество данных можно измерить, контролировать и улучшить. И для этого не нужен штат data-инженеров — достаточно понимать принципы и системно их применять. Об этом и поговорим.

«Когда мы внедрили автоматический расчёт DQ score, стало понятно, почему отдел продаж жаловался на "неработающие лиды". 40% входящих заявок приходили с некорректными телефонами или без имени. Мы думали, что проблема в конверсии — а проблема была в данных на входе.»

Руководитель отдела маркетинга
Онлайн-ритейлер, Казахстан
Цитата

Почему качество данных — это не «проблема IT»

Честно? Когда заходит речь о «качестве данных», большинство руководителей начинают скучать. Звучит как что-то для айтишников, техническое и далёкое от реальности. А зря.

Плохие данные — не абстракция. Это конкретные потери, которые можно посчитать в тенге.

Как плохие данные убивают продажи

Представьте типичный день менеджера по продажам. У него в CRM список из 50 контактов на обзвон. Он начинает звонить:

  • 5 номеров — некорректные (опечатки, старые номера)
  • 7 контактов — дубликаты, уже звонили вчера другие коллеги
  • 3 контакта — без имени, менеджер не знает, как обращаться
  • 8 контактов — устаревшие, люди давно сменили работу

Итого: 23 контакта из 50 — мусор. Менеджер потратил 2 часа на бесполезные действия. Умножьте на 10 менеджеров, на 20 рабочих дней в месяц — получаете 400 часов потерянного времени. При средней зарплате менеджера это сотни тысяч тенге ежемесячно. И это только прямые потери — мы ещё не считаем упущенные сделки и испорченную репутацию.

Цена плохих данных: что теряет бизнес

Время сотрудников

До 30% рабочего времени тратится на работу с некорректными данными: поиск актуальной информации, исправление ошибок, дозвоны по неработающим номерам.

Упущенные сделки

Лиды без контактов, дубли которые никто не обрабатывает, «забытые» клиенты — всё это деньги, которые вы не заработали.

Неверные решения

Отчёты на основе грязных данных дают искажённую картину. Вы думаете, что конверсия 5%, а реально — 8%. Или наоборот.

Провал AI-инициатив

Машинное обучение на плохих данных даёт плохие результаты. «Garbage in — garbage out» — классика data science.

Что такое DQ score и зачем он нужен

DQ score (Data Quality Score) — количественная оценка качества данных. Одна цифра, которая показывает: «Ваши данные в порядке на 78%» или «Всё плохо — качество 42%».

Зачем единая метрика? По той же причине, почему врачи меряют температуру, а не спрашивают «как вы себя чувствуете». Цифра позволяет:

  • Отслеживать динамику: Качество растёт или падает? Работают ли наши усилия по улучшению?
  • Сравнивать: У какого отдела данные чище? Какой источник лидов даёт более качественные контакты?
  • Ставить цели: «Поднять DQ score с 65% до 85% за квартал» — понятная, измеримая задача.
  • Приоритизировать: На что тратить ресурсы в первую очередь?

Из чего состоит DQ score

Качество данных — не один показатель, а набор из нескольких. Классика — шесть параметров:

Параметр Что означает Пример проблемы
Полнота (Completeness) Все необходимые поля заполнены Контакт без email, сделка без суммы, компания без отрасли
Точность (Accuracy) Данные соответствуют реальности Телефон с опечаткой, неверный адрес, устаревшая должность
Уникальность (Uniqueness) Нет дубликатов записей Один клиент в базе 3 раза с разными написаниями имени
Актуальность (Timeliness) Данные свежие и релевантные Контакт не обновлялся 3 года, человек давно сменил работу
Согласованность (Consistency) Данные не противоречат друг другу В одном поле «Алматы», в другом «Almaty», в третьем «г. Алма-Ата»
Валидность (Validity) Данные соответствуют правилам формата Email без @, телефон с буквами, дата в будущем

Общий DQ score — это взвешенная комбинация этих параметров. Веса зависят от вашего бизнеса. Для колл-центра критична точность телефонов. Для email-маркетинга — валидность email. Для аналитики — полнота и согласованность.

Формула расчёта DQ score

DQ Score = (w1 × Completeness + w2 × Accuracy + w3 × Uniqueness + ...) / (w1 + w2 + w3 + ...)

Пример для CRM отдела продаж:

  • Полнота (30%) — без имени и телефона работать невозможно
  • Точность (25%) — неверный телефон = потерянный клиент
  • Уникальность (20%) — дубли размывают картину и раздражают клиентов
  • Актуальность (15%) — устаревшие данные = потерянное время
  • Валидность (10%) — формат важен, но менее критичен

Как измерять каждый параметр: практические метрики

Хватит теории, давайте к цифрам. Как конкретно это считать?

1. Полнота (Completeness)

Самый простой параметр для измерения. Берём список обязательных полей и считаем процент заполненных.

Completeness = (Количество заполненных обязательных полей / Общее количество обязательных полей) × 100%

Важно: Не все поля одинаково важны. Имя и телефон — критичны. Отчество и дата рождения — желательны, но не обязательны. Определите «обязательный минимум» для вашего бизнеса.

Для CRM-системы отдела продаж обычно обязательны:

  • Контакты: имя, телефон или email, источник, ответственный
  • Компании: название, отрасль, размер (для B2B)
  • Сделки: сумма, этап, дата создания, связанный контакт

2. Точность (Accuracy)

Сложнее измерить, потому что требуется сверка с реальностью. Но есть способы:

  • Телефоны: Процент успешных дозвонов. Если из 100 номеров работают 85 — точность 85%.
  • Email: Bounce rate рассылок. Hard bounce 10% = точность 90%.
  • Адреса: Процент доставленных отправлений (для e-commerce).
  • Выборочная проверка: Случайные 100 контактов — обзвонить или проверить вручную.

3. Уникальность (Uniqueness)

Считаем дубликаты. Это можно автоматизировать.

Uniqueness = (1 − Количество дубликатов / Общее количество записей) × 100%

Но что считать дубликатом? Вот критерии для CRM:

  • Точное совпадение: Одинаковый телефон или email
  • Нечёткое совпадение: Похожие имена (Иванов Иван / Иван Иванов), близкие телефоны (+7 777 123-45-67 / 87771234567)
  • Для B2B: Одинаковое название компании + город

4. Актуальность (Timeliness)

Когда данные последний раз обновлялись или подтверждались?

Timeliness = (Количество записей с обновлением за последние N месяцев / Общее количество активных записей) × 100%

Что считать «обновлением»:

  • Редактирование полей в карточке
  • Успешный контакт (звонок, встреча, переписка)
  • Ответ клиента на email
  • Покупка или транзакция

Период N зависит от бизнеса. Для B2C ритейла — 6 месяцев. Для B2B с длинным циклом — 12-18 месяцев.

5. Согласованность (Consistency)

Данные не противоречат друг другу и используют единые стандарты.

Примеры проверок:

  • Город в адресе совпадает с городом в отдельном поле
  • Код телефона соответствует указанному региону
  • Дата закрытия сделки не раньше даты создания
  • Единый формат написания городов (не «Алматы» + «Almaty» + «г. Алматы»)

6. Валидность (Validity)

Данные соответствуют заданным правилам формата.

Validity = (Количество записей, прошедших валидацию / Общее количество записей) × 100%

Что проверять:

  • Email содержит @ и доменную часть
  • Телефон — только цифры, правильная длина (11-12 знаков для Казахстана)
  • ИИН — 12 цифр, проходит контрольную сумму
  • Даты — в правильном формате, не в будущем (для дат рождения)
Иллюстрация

Хотите провести аудит качества данных?

Проанализируем вашу CRM-базу, рассчитаем DQ score и дадим конкретные рекомендации по улучшению качества данных.

Заказать аудит данных

Как построить систему контроля качества данных

Измерить качество один раз — недостаточно. Нужна система, которая будет мониторить DQ score непрерывно и сигнализировать о проблемах. Вот как её выстроить.

Уровень 1: Валидация на входе

Первая линия защиты — не допускать грязные данные в систему. Это дешевле, чем чистить потом.

  • Обязательные поля: Нельзя создать контакт без имени и хотя бы одного способа связи.
  • Маски ввода: Телефон автоматически форматируется, email проверяется на наличие @.
  • Справочники: Город выбирается из списка, а не вводится вручную.
  • Проверка дубликатов: При создании контакта система предупреждает, если похожий уже есть.

Важно соблюдать баланс. Слишком строгая валидация раздражает пользователей и замедляет работу. Слишком мягкая — пропускает мусор. Начните с минимума и ужесточайте по мере необходимости.

Уровень 2: Регулярные проверки

Даже с хорошей валидацией данные деградируют со временем. Клиенты меняют телефоны, компании переезжают, люди увольняются. Нужны периодические проверки.

Что делать:

  • Еженедельно: Автоматический расчёт DQ score, рассылка отчёта ответственным.
  • Ежемесячно: Глубокий анализ проблемных областей, планирование корректирующих действий.
  • Ежеквартально: Полный аудит CRM, пересмотр правил валидации.

Уровень 3: Мониторинг и алерты

Не ждите, пока качество упадёт критически. Настройте уведомления:

  • DQ score упал ниже 70% — уведомление руководителю
  • Процент дубликатов вырос на 5%+ за неделю — алерт в Telegram
  • Bounce rate email выше 5% — проверить качество email-адресов
  • Новый источник лидов даёт менее 60% качественных контактов — пересмотреть интеграцию

Трёхуровневая система контроля качества данных

Валидация на входе

Обязательные поля, маски ввода, справочники, проверка дубликатов

Превентивный
Регулярные проверки

Еженедельный DQ score, ежемесячный анализ, квартальный аудит

Детективный
Мониторинг и алерты

Пороговые значения, уведомления, эскалация проблем

Реактивный

Практические методы очистки данных

Измерили качество — и оно не радует. Что делать? Вот методы, которые работают.

Борьба с дубликатами

Дубликаты — самая распространённая проблема. И самая раздражающая для клиентов: им звонят несколько раз разные менеджеры, приходят одинаковые письма.

Шаг 1: Найти дубликаты

Используйте инструменты нечёткого сравнения (fuzzy matching). Они находят записи, которые похожи, но не идентичны:

  • «Иванов Иван Петрович» ↔ «Иван Иванов»
  • «+7 (777) 123-45-67» ↔ «87771234567»
  • «ТОО "Астана-Строй"» ↔ «Астана Строй ТОО»

Шаг 2: Решить, что делать с дубликатами

Варианты:

  • Объединение (merge): Слить две записи в одну, сохранив данные из обеих
  • Удаление: Оставить более полную запись, удалить дубль
  • Ручная проверка: Для неоднозначных случаев — решение человека

Шаг 3: Предотвратить появление новых

Настройте проверку на дубликаты при создании записей. Система должна предупреждать: «Похожий контакт уже существует. Создать новый или открыть существующий?»

Заполнение пропусков

Пустые поля — вторая по распространённости проблема. Как заполнить?

  • Обогащение из внешних источников: Сервисы обогащения данных могут добавить email по номеру телефона или данные компании по ИИН.
  • Кампания актуализации: Обзвоните клиентов с неполными данными, попросите уточнить информацию (заодно — повод для контакта).
  • Формы обратной связи: Предложите клиентам обновить свои данные в обмен на бонус.
  • Автоматический сбор: Интегрируйте CRM с источниками данных — email-подписями, социальными сетями, формами на сайте.

Стандартизация форматов

Телефоны записаны в десятке форматов, города — на трёх языках. Как привести к единому виду?

  • Автоматическая нормализация: Скрипт, который приводит телефоны к формату +7 XXX XXX XX XX, а города — к официальным названиям.
  • Справочники: Замените текстовые поля на выпадающие списки там, где это возможно.
  • Правила на уровне CRM: Настройте автоформатирование при сохранении записи.

Архивация устаревших данных

Не все данные нужно чистить — некоторые достаточно убрать из активной работы.

Правила архивации:

  • Контакты без активности 18+ месяцев → в архив
  • Сделки со статусом «Проигрыш» старше 6 месяцев → в архив
  • Компании без активных сделок и контактов 24+ месяца → в архив

Важно: архив — это не удаление. Данные сохраняются, но не мешают работе и не искажают статистику.

Чек-лист очистки данных в CRM

Еженедельно:

  • Проверить новые дубликаты
  • Обработать алерты о качестве

Ежемесячно:

  • Архивировать неактивные записи
  • Обогатить неполные контакты
  • Стандартизировать новые записи

Кто отвечает за качество данных: роли и ответственность

Главная причина грязных данных — никто толком не отвечает за качество. «Это должен делать IT». «Нет, это маркетинг». «Мы думали, оно само». В результате — никто не отвечает, данные гниют.

Модель ответственности за качество данных

Роль Зона ответственности Конкретные задачи
Владелец данных (Data Owner) Бизнес-руководитель (РОП, директор по маркетингу) Определяет требования к данным, утверждает правила, отвечает за результат
Стюард данных (Data Steward) Аналитик или администратор CRM Мониторит DQ score, проводит очистку, готовит отчёты, управляет правилами
Пользователи данных Менеджеры по продажам, маркетологи Вносят данные корректно, сообщают о проблемах, актуализируют при контакте с клиентом
IT-поддержка Технические специалисты Настраивают валидацию, интеграции, инструменты дедупликации

Мотивация к качественному ведению данных

Правила без мотивации мертвы. Как заставить менеджеров заполнять данные нормально?

  • Показать выгоду: «Чистые данные = меньше пустых звонков = больше продаж за то же время».
  • Включить в KPI: Процент заполненности карточек как один из показателей оценки.
  • Геймификация: Рейтинг менеджеров по качеству данных, бонусы лидерам.
  • Упростить ввод: Автозаполнение, подсказки, справочники — чем проще вносить, тем качественнее данные.

И обратное — не наказывайте за ошибки слишком жёстко. Иначе люди будут скрывать проблемы вместо того, чтобы их исправлять.

Качество данных и AI: почему это критически важно

Если вы планируете или уже используете AI в CRM — lead scoring, прогнозирование оттока, AI-ассистентов — качество данных становится критически важным.

Почему? AI учится на ваших данных. Грязные данные — кривые выводы. Всё просто.

Как плохие данные ломают AI

  • Дубликаты искажают статистику: Клиент, записанный 3 раза, получает в 3 раза больший вес в модели.
  • Пропуски ломают обучение: Модель не может учитывать признаки, которые заполнены у 30% записей.
  • Неточности создают шум: Модель находит ложные корреляции в ошибочных данных.
  • Устаревшие данные не отражают реальность: Модель обучается на том, как было 2 года назад.

На выходе — модель, которая выглядит умной, но выдаёт ерунду. Или даже вредит.

Минимальные требования к данным для AI

Если вы хотите использовать машинное обучение на данных CRM, вот минимальные пороги качества:

Параметр Минимум для AI Рекомендуемо
Общий DQ score 75% 85%+
Полнота ключевых полей 80% 95%+
Уникальность (без дубликатов) 90% 98%+
Актуальность (обновлено за год) 60% 80%+
История данных 12 месяцев 24+ месяцев

Не дотягиваете до этих порогов? Сначала почистите, потом AI. Иначе выкинете деньги на решение, которое не работает, и разочаруетесь в технологии в целом.

Особенности управления качеством данных в Казахстане

У нас своя специфика, и её надо учитывать.

Мультиязычность

Три языка в активном использовании — казахский, русский, английский. Это создаёт проблемы согласованности:

  • Город может быть записан как «Алматы», «Almaty», «Almati», «г. Алма-Ата»
  • Имена — на казахском, русском или транслитом: «Ержан» / «Yerzhan» / «Ержанов Е.»
  • Названия компаний на разных языках не сопоставляются автоматически

Решение: Введите единый стандарт записи. Например: города — на русском по официальному названию, имена — как представился клиент, компании — по регистрации.

Форматы телефонов

Казахстанские номера имеют особенности:

  • Код +7, как в России — легко перепутать
  • Мобильные коды: 700-709, 747, 771-778 и т.д.
  • Городские номера с разными кодами: 727 (Алматы), 7172 (Астана) и т.д.

Решение: Валидация телефонов с учётом казахстанских кодов. Стандартизация в формат +7 XXX XXX XX XX.

ИИН и БИН

Индивидуальный идентификационный номер (ИИН) и бизнес-идентификационный номер (БИН) — уникальные идентификаторы для физических и юридических лиц. Их наличие в CRM — отличный способ избежать дубликатов.

  • ИИН — 12 цифр, можно проверить контрольную сумму
  • БИН — 12 цифр, первые цифры указывают на год и месяц регистрации
  • Наличие ИИН/БИН позволяет однозначно идентифицировать клиента

Совет: Для B2B сделайте БИН обязательным полем. Это решает 90% проблем с дубликатами компаний.

Интеграция с локальными системами

Если CRM интегрирована с Kaspi, или другими локальными системами — качество данных зависит и от них. Проверяйте:

  • Корректность маппинга полей между системами
  • Синхронизация справочников (статусы, категории)
  • Обработка ошибок интеграции — не теряются ли данные?
Иллюстрация

Готовы навести порядок в данных?

Проведём аудит качества данных в вашей CRM, рассчитаем DQ score и построим систему контроля качества.

Обсудить проект

Кейс: как поднять DQ score с 54% до 87% за три месяца

Вернёмся к Ержану, с которого начали статью. После неприятного сюрприза с аудитом он решил системно заняться качеством данных. Вот что было сделано.

Исходная ситуация

  • 47 000 контактов в базе, из них ~19 000 — дубликаты или мусор
  • Полнота заполнения — 58%
  • Актуальность — 41% (обновлены за последний год)
  • Общий DQ score — 54%

Что сделали

Месяц 1: Очистка

  • Запустили дедупликацию. Объединили 14 000 дубликатов в 6 000 уникальных записей.
  • Архивировали 5 000 контактов без активности более 2 лет.
  • Удалили 3 000 «мусорных» записей (тесты, некорректные данные).

Месяц 2: Обогащение

  • Запустили кампанию актуализации: обзвон 8 000 клиентов с неполными данными.
  • Использовали сервис обогащения для B2B-контактов: добавили данные о 2 000 компаниях.
  • Стандартизировали форматы: телефоны, города, названия компаний.

Месяц 3: Процессы

  • Внедрили валидацию на входе: обязательные поля, маски, проверка дубликатов.
  • Настроили еженедельный отчёт по DQ score для руководителей.
  • Включили качество данных в KPI менеджеров (5% от бонуса).

Результаты

До и после

Метрика До После
DQ score 54% 87%
Полнота 58% 91%
Уникальность 60% 97%
Актуальность 41% 78%
+33%

Рост DQ score

за 3 месяца

+18%

Рост конверсии звонков в сделки

«Самое неожиданное — это влияние на продажи, — говорит Ержан. — Мы думали, что чистим данные ради отчётности. А оказалось, что менеджеры стали работать на 20% эффективнее просто потому, что перестали звонить по неработающим номерам и разбираться с дублями».

Пошаговый план: как начать управлять качеством данных

Итак, вы решили навести порядок в данных. С чего начать?

Неделя 1: Измерьте текущее состояние

  • Определите, какие поля в CRM критически важны для вашего бизнеса
  • Посчитайте базовые метрики: процент заполненности, количество дубликатов
  • Рассчитайте первый DQ score (даже приблизительно)

Неделя 2-3: Первичная очистка

  • Найдите и объедините явные дубликаты
  • Архивируйте явно устаревшие записи
  • Удалите мусор (тесты, некорректные данные)

Неделя 4: Настройте валидацию

  • Определите обязательные поля и настройте их в CRM
  • Добавьте маски ввода для телефонов, email
  • Включите проверку на дубликаты при создании записей

Месяц 2: Постройте мониторинг

  • Настройте автоматический расчёт DQ score
  • Создайте дашборд качества данных
  • Настройте алерты при падении показателей

Месяц 3+: Развивайте систему

  • Назначьте ответственного за качество данных (Data Steward)
  • Включите метрики качества в KPI пользователей
  • Проводите ежеквартальные аудиты
  • Документируйте правила и процедуры

Заключение: данные — это актив, который требует ухода

Вернёмся к началу. Ержан потерял 15% оценки компании из-за грязных данных. Но история могла сложиться иначе: если бы он узнал о проблеме раньше, если бы система контроля качества работала всё это время.

Качество данных — это не техническая задача для IT-отдела. Это бизнес-задача, которая напрямую влияет на продажи, маркетинг, принятие решений и стоимость компании.

Ключевые выводы:

  • DQ score — единая метрика, которая показывает здоровье ваших данных. Измеряйте её регулярно.
  • Шесть параметров качества: полнота, точность, уникальность, актуальность, согласованность, валидность. Работайте со всеми.
  • Превентивный контроль дешевле очистки. Валидация на входе экономит часы работы потом.
  • Назначьте ответственного. Без владельца процесс не работает.
  • AI требует чистых данных. Если планируете машинное обучение — сначала почистите базу.

Начните с малого. Посчитайте DQ score сегодня. Найдите самую критичную проблему — дубликаты, пропуски, устаревшие данные. Исправьте её. Потом — следующую. Качество данных — это марафон, не спринт. Но каждый шаг делает ваш бизнес немного эффективнее.

И когда к вам придут аудиторы или инвесторы — ваши данные будут готовы.