MDM в CRM: golden record, matching rules, дедупликация и…
  • Качество данных
  • Автор: Команда CrmAI
  • Опубликовано:
MDM в CRM: golden record, matching rules и дедупликация контактов

Недавно я разговаривал с руководителем отдела продаж крупной дистрибьюторской компании в Алматы. Он жаловался на странную проблему: их топовый клиент — сеть супермаркетов — получает по три-четыре одинаковых коммерческих предложения от разных менеджеров. Каждый раз закупщик сети с сарказмом спрашивает: «Вы там вообще между собой общаетесь?»

Когда начали разбираться, выяснилось интересное. В CRM этот клиент существовал в пяти разных карточках: «Алма-Маркет», «Алма Маркет ТОО», «ТОО Алма-Маркет», «Alma Market» и просто «Алма» (так его называл один из старых менеджеров). У каждой карточки — своя история сделок, свои контакты, свои задачи. Пять менеджеров работали с одним клиентом, не подозревая друг о друге.

Типичная история для компаний без MDM — Master Data Management, управления мастер-данными. Термин звучит сложно, а суть банальная: у каждого клиента должна быть одна «золотая запись» (golden record), где собрана вся информация о нём.

«Качество данных — это не техническая проблема. Это бизнес-проблема, которая выражается в потерянных сделках, раздражённых клиентах и менеджерах, которые работают вслепую.»

Принцип MDM
один клиент — одна запись — вся правда
Цитата

MDM простыми словами: зачем это бизнесу?

Master Data Management — это набор практик, процессов и инструментов для создания и поддержания единого, достоверного представления о ключевых бизнес-сущностях. В контексте CRM главные сущности — это клиенты (компании и контакты), продукты и сделки.

Представьте себе библиотеку, где одна и та же книга может быть записана по-разному: «Война и мир», «Война и Мир», «Л. Толстой — Война и мир», «War and Peace (рус.)». Каждый библиотекарь записывал по-своему, и теперь найти все экземпляры одной книги — квест. MDM — это система, которая говорит: «Это одна и та же книга, и вот её каноническое название».

В CRM MDM решает три ключевые задачи:

Идентификация

Понять, что «Алма-Маркет» и «Alma Market» — это один клиент, а не два разных

Объединение

Собрать всю информацию из дублей в одну «золотую запись» без потери данных

Поддержание

Не допустить появления новых дублей и сохранять качество данных во времени

Почему это важно для бизнеса в Казахстане? Потому что здесь особенно много «шума» в данных. Названия компаний пишут и на русском, и на казахском, и латиницей. БИН может быть указан с пробелами или без. Телефоны — с кодом +7, 8, или вообще без кода. Адреса — полный хаос: «мкр. Самал-2» или «Самал 2 мкр» или «Samal-2».

Без MDM менеджеры тратят время на работу с дублями, AI-модели учатся на мусорных данных, отчёты показывают искажённую картину, а клиенты получают противоречивые предложения от разных сотрудников. О том, как это влияет на бизнес-результаты, мы подробно писали в статье Качество данных в CRM: как построить единый источник правды (SSOT).

Golden Record: что это и из чего состоит

Golden Record — это эталонная запись о клиенте, которая содержит наиболее полную и достоверную информацию. Если у вас пять дублей одного клиента, golden record — это то, что получится, когда вы объедините всё лучшее из каждой карточки.

Но как определить, какая информация «лучшая»? Вот тут начинается интересное.

Пример: формирование Golden Record

Допустим, у нас есть три записи одного клиента:

Поле Запись 1 Запись 2 Запись 3 Golden Record
Название Алма-Маркет ТОО «Алма-Маркет» Alma Market ТОО «Алма-Маркет»
БИН 123456789012 123456789012 123456789012
Телефон +7 727 123 45 67 8 727 1234567 +7 727 123 45 67
Email info@alma.kz zakup@alma.kz info@alma.kz, zakup@alma.kz
Отрасль Розничная торговля Retail Розничная торговля
Менеджер Асхат (уволен) Мария Данияр Мария
Последняя сделка 01.2024 11.2025 06.2025 11.2025

Обратите внимание: golden record — это не просто «берём всё из самой свежей записи». Для каждого поля нужны свои правила:

Название компании

Берём наиболее полное и формальное (с указанием ОПФ — ТОО, ИП и т.д.). Если есть данные из госреестров — приоритет им.

Телефон / Email

Объединяем уникальные значения, нормализуем формат. Несколько контактов — это плюс, не минус.

Менеджер

Берём активного менеджера с самой свежей сделкой или задачей. Уволенные — не считаются.

Даты и история

Объединяем историю из всех записей. Первая сделка — самая ранняя, последняя — самая свежая.

Важно понимать: golden record — это не статичная вещь. Она должна обновляться, когда поступает новая информация. Клиент сменил адрес? Golden record обновляется. Добавился новый контакт? Он подтягивается в golden record. Это живой, актуальный профиль.

Matching Rules: как система находит дубли

Matching rules — это правила, по которым система определяет, что две записи относятся к одному и тому же клиенту. Звучит просто, но на практике это целая наука.

Наивный подход — сравнивать по точному совпадению названия. Но «Алма-Маркет» и «Алма Маркет» — это одно и то же? А «ТОО Алма-Маркет» и «Алма-Маркет ТОО»? Точное совпадение не работает.

Поэтому используют многоуровневые правила сопоставления:

Пирамида Matching Rules

100%
Уровень 1: Уникальные идентификаторы

БИН/ИИН, email, телефон (нормализованный). Если совпадает — это точно один клиент.

90%
Уровень 2: Fuzzy-сопоставление названий

Алгоритмы нечёткого сравнения (Levenshtein, Jaro-Winkler) + нормализация (убрать ОПФ, знаки препинания, транслитерация).

75%
Уровень 3: Комбинированные признаки

Название похоже + город совпадает + отрасль совпадает. Несколько слабых признаков = сильный сигнал.

60%
Уровень 4: Поведенческие признаки

Одинаковый IP при заполнении форм, похожие паттерны покупок, совпадение контактных лиц.

Процент справа — это confidence score, уровень уверенности. Правило хорошего тона: при 90%+ уверенности — объединяем автоматически. При 70-90% — показываем менеджеру на подтверждение. Ниже 70% — только ручная проверка.

Нормализация: подготовка данных к сравнению

Прежде чем сравнивать, нужно привести данные к единому формату. Это называется нормализация:

Тип данных Исходное значение Нормализованное Правила
Название компании ТОО «Алма-Маркет» алмамаркет Убрать ОПФ, кавычки, дефисы, пробелы, lowercase
Телефон 8 (727) 123-45-67 77271234567 Только цифры, код страны без +
Email Info@Alma.KZ info@alma.kz Lowercase, trim пробелов
Адрес мкр. Самал-2, д. 15 самал2 15 Убрать сокращения, только значимые части
БИН 123 456 789 012 123456789012 Только цифры

Для казахстанских компаний есть нюансы: нужно учитывать транслитерацию (Алма = Alma = Алма), разные написания городов (Алматы = Almaty = Алма-Ата), а также казахские названия (Астана = Нұр-Сұлтан = Nur-Sultan).

Дедупликация на практике: пошаговый процесс

Расскажу, как мы подходим к дедупликации в реальных проектах. Это не одноразовая акция, а процесс из нескольких этапов.

Процесс дедупликации

1
Аудит и диагностика

Сначала нужно понять масштаб проблемы. Запускаем анализ:

  • Сколько потенциальных дублей?
  • Какие поля заполнены лучше всего?
  • Где больше всего «мусора»?
2
Настройка правил

Определяем matching rules под специфику бизнеса:

  • Какие идентификаторы уникальны?
  • Какие комбинации полей надёжны?
  • Порог уверенности для автослияния?
3
Пакетная обработка

Запускаем массовую дедупликацию:

  • Автослияние высоконадёжных (90%+)
  • Формирование очереди на ручную проверку
  • Логирование всех действий (для отката)
4
Постоянный мониторинг

После первичной чистки — настраиваем защиту от новых дублей:

  • Проверка при создании новых записей
  • Периодический скан на новые дубли
  • Дашборд качества данных

Что делать со связанными данными?

Самое сложное при слиянии — не потерять связанные данные. Когда объединяем две карточки клиента, нужно перенести:

  • Сделки — все сделки из обеих карточек переносятся в golden record
  • Контакты — все контактные лица объединяются (с проверкой на их дубли!)
  • Задачи — открытые задачи переназначаются, закрытые — сохраняются в истории
  • Документы — все файлы, КП, договоры переносятся
  • История коммуникаций — звонки, письма, сообщения — всё сохраняется
  • Примечания и комментарии — ценная контекстная информация

Важно: после слияния старые карточки не удаляются физически, а помечаются как «объединённые» с ссылкой на golden record. Это позволяет откатить слияние, если что-то пошло не так, и сохраняет аудит-трейл.

Жизненный цикл контактов: от лида до «спящего»

MDM — это не только про дедупликацию. Это ещё и про управление жизненным циклом данных. Контакт в CRM — это не статичная запись. Он рождается, живёт, меняется и иногда «умирает».

Вот типичный жизненный цикл контакта в B2B:

Жизненный цикл контакта

Создание

Лид с сайта, импорт, ручной ввод

Обогащение

Заполнение данных, квалификация

Верификация

Проверка данных, дедупликация

Активный

Работа, сделки, коммуникации

Спящий

Нет активности 6+ месяцев

Архив

Неактуальные, удалённые

Каждый этап требует своих действий:

Создание: защита от дублей на входе

Лучший способ борьбы с дублями — не создавать их. При добавлении нового контакта система должна автоматически проверять: «А нет ли у нас уже такого?»

Идеальный сценарий: менеджер вводит email или телефон, система говорит: «Похоже, это Иванов Пётр из компании Альфа. Это он?» Если да — открываем существующую карточку. Если нет — создаём новую.

Обогащение: заполнение пробелов

Часто контакт создаётся с минимумом данных: имя и телефон с формы на сайте. MDM-процесс включает обогащение из внешних источников:

  • Данные из госреестров (egov.kz) — название, БИН, адрес, руководитель
  • Данные из открытых источников — сайт, соцсети, новости
  • Данные из коммуникаций — email-подпись, визитка

Спящие контакты: что с ними делать?

«Спящий» контакт — это тот, с кем нет активности больше 6-12 месяцев. Что делать:

Вариант 1: Реактивация

Запустить nurturing-кампанию: письма с ценным контентом, специальные предложения. Возможно, клиент просто «остыл» и его можно вернуть.

Вариант 2: Верификация

Проверить актуальность данных: телефон отвечает? Email не bounce? Компания существует? Если нет — пометить как неактуальный.

Вариант 3: Архивация

Если реактивация не сработала — отправить в архив. Данные сохраняются, но не захламляют рабочую базу.

Важно: архивация — это не удаление. Данные нужно хранить для истории и возможной реактивации в будущем. Но они не должны мешать работать с актуальными клиентами.

Нужна помощь с качеством данных в CRM?

Проведём аудит вашей базы, оценим масштаб проблемы с дублями и предложим план по внедрению MDM-процессов. Первичная консультация — бесплатно.

Заказать аудит данных

MDM и искусственный интеллект: синергия

Сегодня MDM и AI работают вместе, усиливая друг друга. С одной стороны, качественные данные критически важны для AI-моделей. С другой — AI помогает улучшить качество данных.

Как AI помогает MDM:

AI-дедупликация

ML-модели находят дубли лучше, чем жёсткие правила. Они учатся на исторических данных и улавливают паттерны, которые сложно формализовать.

  • Распознаёт транслитерацию и опечатки
  • Учитывает контекст (отрасль, город)
  • Адаптируется под специфику данных

AI-обогащение

LLM-модели могут извлекать информацию из неструктурированных источников: email-переписки, документов, даже звонков.

  • Извлекает реквизиты из документов
  • Определяет роль контакта из переписки
  • Обновляет данные из открытых источников

Как MDM помогает AI:

Без качественных данных AI-модели работают плохо. Это классическое «garbage in — garbage out». Вот что происходит без MDM:

  • Lead scoring выдаёт разные оценки одному клиенту в разных карточках
  • Прогноз продаж искажён из-за дублирующихся сделок
  • Персонализация не работает — история клиента разбросана
  • Churn-прогноз «не видит» полную картину по клиенту

Golden record — это основа для любой AI-автоматизации в CRM. Если вы планируете внедрять AI-ассистентов, чат-ботов или аналитику — начните с MDM. Подробнее о том, как интегрировать AI с CRM-данными, читайте в статье о едином профиле клиента (Customer 360).

Как внедрить MDM: практические рекомендации

MDM — это не проект на неделю. Это изменение культуры работы с данными. Но начать можно с малого.

План внедрения MDM

Неделя 1-2
Аудит текущего состояния

Оценить масштаб проблемы: количество дублей, качество заполнения полей, источники «мусора». Определить владельцев данных.

Неделя 3-4
Определение правил

Разработать matching rules для вашего бизнеса. Определить поля golden record и правила их заполнения. Согласовать с командой.

Неделя 5-8
Первичная чистка

Пакетная дедупликация существующей базы. Автослияние надёжных дублей, ручная проверка сомнительных. Обогащение данных.

Постоянно
Поддержание качества

Проверка на дубли при создании записей, периодический аудит, дашборд качества данных, обучение команды.

Роль Data Owner: кто отвечает за качество?

Одна из главных ошибок — думать, что за качество данных отвечает IT. Нет. IT предоставляет инструменты, но владельцем данных должен быть бизнес.

В идеале нужен Data Owner — человек (или роль), который:

  • Определяет стандарты качества данных
  • Утверждает правила matching и слияния
  • Разрешает спорные ситуации («это дубль или нет?»)
  • Отслеживает метрики качества и инициирует улучшения

Часто эту роль выполняет руководитель отдела продаж или операционный директор. В небольших компаниях — сам CEO.

Метрики качества данных: что измерять

«Что не измеряется — не улучшается». Для MDM нужны чёткие метрики, которые показывают здоровье вашей базы.

Duplicate Rate

% записей, имеющих дубли. Цель: < 5%

Completeness

% заполненности ключевых полей. Цель: > 80%

Accuracy

% корректных значений (валидные email, телефоны). Цель: > 90%

Freshness

% записей, обновлённых за последние 6 мес. Цель: > 60%

Referential Integrity

% контактов, связанных с компанией. Цель: > 95%

DQ Score

Общий индекс качества (0-100). Цель: > 75

Эти метрики нужно отслеживать регулярно — еженедельно или ежемесячно. Идеально — иметь дашборд качества данных, который показывает динамику. Падение метрик — сигнал к действию.

Подробнее о метриках качества данных и их измерении читайте в статье Data Quality в CRM: DQ Score и как измерять качество данных.

Заключение: MDM — это инвестиция в будущее

Вернёмся к истории с дистрибьюторской компанией из начала статьи. После внедрения MDM-процессов они не просто избавились от дублей. Они получили полную картину по каждому клиенту: всю историю сделок, все контакты, все коммуникации — в одном месте.

Закупщик сети супермаркетов больше не получает четыре КП от разных менеджеров. Теперь с ним работает один ответственный, который видит полную историю: что покупали, какие были проблемы, о чём договаривались. И это изменило качество взаимодействия.

MDM — это не про «навести порядок в базе». Это про возможность:

  • Видеть реальную картину по клиентам и рынку
  • Внедрять AI-автоматизацию на качественных данных
  • Принимать решения на основе достоверной аналитики
  • Строить долгосрочные отношения с клиентами

Качество данных — это фундамент. Без него любая CRM-система, любой AI-бот, любая аналитика будут работать вполсилы или хуже. Инвестиции в MDM окупаются многократно — и в деньгах, и в качестве работы команды.

Готовы навести порядок в данных?

Про��едём аудит вашей CRM-базы, оценим масштаб проблемы с дублями и разработаем план по внедрению MDM. Поможем настроить автоматическую дедупликацию и защиту от новых дублей.

Заказать аудит данных

Часто задаваемые вопросы

По нашему опыту, в базах казахстанских компаний без MDM от 15% до 40% записей имеют дубли. В особо запущенных случаях (много импортов, текучка менеджеров) — до 60%. Если у вас база 10 000 контактов, реальных уникальных клиентов может быть 6-7 тысяч.

При правильном подходе — нет. Во-первых, golden record формируется из лучших данных всех дублей, не теряя информацию. Во-вторых, вся связанная история (сделки, задачи, коммуникации) переносится. В-третьих, старые записи не удаляются физически, а помечаются как «объединённые» — можно откатить при необходимости.

Частично — да. Высоконадёжные дубли (совпадение по БИН, email или телефону) можно объединять автоматически. Но всегда будут случаи, требующие человеческого решения: похожие названия, разные филиалы одной компании, тёзки. Рекомендуем: автослияние для 60-70% очевидных дублей, ручная проверка для остальных.

Три уровня защиты: 1) Проверка при создании — система предупреждает менеджера о похожих записях. 2) Валидация обязательных полей — нельзя создать запись без email или телефона. 3) Периодический аудит — еженедельный скан на новые потенциальные дубли. Плюс обучение команды: объяснить, почему важно искать существующих клиентов, а не создавать новых.

Для большинства компаний достаточно встроенных возможностей CRM + правильных процессов. Отдельный MDM-инструмент нужен, если: 1) У вас несколько систем (CRM + ERP + биллинг) и нужна единая мастер-база. 2) Данные поступают из десятков источников. 3) Требования к качеству данных критичны (финансы, медицина). Для среднего бизнеса — CRM + грамотная настройка = достаточно.

Читайте также

Качество данных в CRM: SSOT

Как построить единый источник правды

Customer 360: единый профиль клиента

Как собрать полную картину по каждому клиенту

Data Quality: DQ Score

Как измерять и повышать качество данных

Очистка дубликатов в CRM

Ручные и автоматические методы

Почему AI-проекты не взлетают

Грязные данные — главная причина провалов

Миграция данных в CRM

Полный гайд по переносу данных