Почему AI-проекты «не взлетают»: диагноз «грязные данные»…
  • Качество данных
  • Автор: Команда CrmAI
  • Опубликовано:
Грязные данные как причина провала AI-проектов

Есть одна причина провала AI-проектов, о которой не любят говорить вслух. Она не звучит на презентациях стартапов и редко упоминается в маркетинговых материалах. Но именно она убивает большинство начинаний ещё до того, как они успели взлететь. Эта причина — грязные данные.

Я видел десятки проектов, которые начинались с энтузиазма: «внедрим AI, автоматизируем всё, получим конкурентное преимущество». Покупалось дорогое решение, нанимались специалисты, выделялись бюджеты. А через три-шесть месяцев проект тихо сворачивался. Официальная причина — «не подошло», «рынок не готов», «нужно больше времени». Реальная причина — данные оказались в таком состоянии, что никакой AI с ними не справился.

В этой статье я расскажу, что такое «грязные данные» на практике, как их распознать до старта проекта, и что с этим делать. Без технического жаргона — простыми словами, понятными владельцу бизнеса или руководителю.

pochemu-ai-proyekty-ne-vzletayut-gryaznye-dannye-ai.png

Что такое «грязные данные» и почему это проблема для AI

Искусственный интеллект, какие бы модные названия ему ни давали, работает на одном топливе — данных. Чат-бот учится на истории переписок. Система прогнозирования анализирует прошлые продажи. Алгоритм скоринга оценивает характеристики клиентов. Без данных AI — это пустой механизм, который не знает, что делать.

Но данные бывают разные. Представьте, что вы учите ребёнка читать по книге, где половина букв размыта, часть страниц перепутаны местами, а некоторые слова написаны с ошибками. Ребёнок чему-то научится, но результат будет странным. Так и с AI: если входные данные плохие, на выходе получится мусор. Это называется принцип GIGO — Garbage In, Garbage Out.

Грязные данные — не абстракция из учебников. Это конкретные проблемы, которые можно увидеть и пощупать. Вот как они выглядят на практике.

Дубликаты везде

Откройте вашу CRM и поищите клиента «Иван Петров». Сколько записей нашлось? Одна? Вам повезло. Чаще бывает так: «Иван Петров», «Петров Иван», «И. Петров», «Петров И.В.», «ivan.petrov@mail.ru» без имени вообще. Это один человек, но система думает, что их пять.

Для человека это неприятность. Для AI — катастрофа. Система персонализации будет слать одному клиенту пять разных писем. Система скоринга недооценит его, потому что история покупок раздроблена. Прогноз продаж будет врать, потому что одна сделка может быть записана дважды.

Дубликаты появляются по простым причинам: разные менеджеры заводят одного клиента по-разному, нет автоматической проверки при вводе, импорты из разных систем накладываются друг на друга. За годы работы база превращается в месиво, где один реальный клиент существует в нескольких ипостасях.

Пустые поля и «заглушки»

Посмотрите на карточки клиентов в вашей CRM. Сколько полей реально заполнено? Не формально, а содержательно? Типичная картина: имя есть, телефон есть, а дальше — пустота. Отрасль? Не указана. Источник? «Другое». Размер компании? «Не знаю».

Ещё хуже — заглушки. Менеджер обязан заполнить поле, но не хочет разбираться, поэтому пишет «-», «123», «аааа», «не указано». Формально поле заполнено, система не ругается. Фактически — информации нет.

AI не умеет работать с пустотой. Алгоритму нужны признаки для анализа. Если половина признаков отсутствует — прогноз будет основан на оставшейся половине, и точность упадёт пропорционально. А если вместо реальных данных — заглушки, алгоритм примет их за чистую монету и начнёт находить закономерности там, где их нет.

«Мы внедряли систему прогнозирования продаж. На тестовых данных работало отлично. Подключили к реальной базе — прогнозы оказались хуже, чем если бы менеджеры просто гадали на кофейной гуще. Разобрались: 60% карточек сделок имели неверные или пустые даты. Система строила прогнозы на основе мусора.»

Коммерческий директор, производственная компания

Разнобой и неконсистентность

В поле «город» у вас записано: «Алматы», «г. Алматы», «алматы», «Алма-Ата», «Almaty», «г.Алматы», «Алматы, Казахстан». Один и тот же город, но для компьютера — семь разных значений. Попробуйте построить отчёт «продажи по городам» — получите семь строчек вместо одной.

То же самое с датами: «01.02.2025», «1 февраля 2025», «2025-02-01», «1/2/25». С телефонами: «+7 (727) 123-45-67», «87271234567», «727-123-45-67». С названиями компаний: «ТОО Ромашка», «Ромашка ТОО», «ТОО \"Ромашка\"», «Ромашка».

Неконсистентность — это когда одна и та же сущность записывается по-разному. Для человека это мелкое неудобство. Для AI — серьёзная проблема. Алгоритмы буквальны: они не понимают, что «Алматы» и «Алма-Ата» — это одно и то же. Нужна предварительная нормализация, а она требует времени и усилий.

Устаревшие данные

Клиент сменил работу два года назад, но в CRM до сих пор его старая должность. Компания переехала, но адрес прежний. Контактное лицо уволилось, но карточка всё ещё на него.

Устаревшие данные — это тихий убийца. В отличие от дубликатов или пустых полей, они выглядят нормально. Поле заполнено, формат правильный, всё красиво. Только информация уже неактуальна.

AI на устаревших данных будет делать неправильные выводы. Система персонализации пошлёт письмо на старую должность. Скоринг оценит клиента по позапрошлогодним характеристикам. Прогноз будет опираться на паттерны, которые уже не работают, потому что рынок изменился.

Особенно критично это для B2B: люди меняют работу, компании сливаются и разделяются, контакты теряют актуальность. Если база не обновляется регулярно — за пару лет она превращается в кладбище мёртвых данных.

Данные в разных системах не сходятся

В CRM записано 1500 клиентов. В бухгалтерии — 1200 контрагентов. На сайте — 2000 зарегистрированных пользователей. В рассылке — 800 подписчиков. Сколько у вас реальных клиентов? Никто не знает.

Когда разные системы живут своей жизнью, данные расходятся. Один клиент в CRM может соответствовать трём контрагентам в 1С (потому что исторически так сложилось). Или наоборот — нескольких клиентов объединили в одного. Связи между системами либо нет, либо она работает криво.

Для AI это означает, что нельзя составить полную картину. Вы хотите анализировать поведение клиента, но часть информации в CRM, часть — в системе поддержки, часть — в биллинге. Объединить их автоматически не получается, потому что нет единого ключа — идентификаторы не совпадают, имена записаны по-разному.

pochemu-ai-proyekty-ne-vzletayut-gryaznye-dannye-overview.png

Почему это происходит: системные причины

Грязные данные — это не злой умысел и не лень сотрудников. Это результат системных проблем, которые накапливаются годами.

Нет ответственного за данные. Когда за качество данных никто конкретно не отвечает — за ними никто и не следит. Каждый вводит как удобно ему, потому что «это же не моя работа — проверять».

Нет стандартов ввода. Если нет чётких правил, как заполнять поля, каждый делает по-своему. Один пишет «Алматы», другой — «Алма-Ата», третий вообще оставляет пустым.

Системы не проверяют данные на входе. Можно ввести email без собачки, телефон из трёх цифр, дату из будущего. Система принимает всё, потому что не настроена валидация.

Исторические данные никто не чистил. Компания работает 10 лет, за это время сменилось несколько CRM, было множество импортов и экспортов. Каждая миграция добавляла мусора. Почистить руки не дошли.

Нет интеграции между системами. CRM, бухгалтерия, сайт, поддержка — все живут отдельно. Данные дублируются, расходятся, противоречат друг другу.

Как понять масштаб проблемы: быстрый аудит

Прежде чем начинать AI-проект, имеет смысл провести быстрый аудит данных. Это можно сделать за день-два, не привлекая дорогих специалистов.

Посчитайте дубликаты. Выгрузите базу клиентов и найдите похожие записи — по имени, по email, по телефону. Сколько их? Если больше 10% — это проблема.

Проверьте заполненность. Для каждого ключевого поля посчитайте процент заполненных записей. Если важное поле заполнено меньше чем на 70% — будут сложности.

Найдите заглушки. Посмотрите на уникальные значения в каждом поле. Если встречается «-», «123», «test», «N/A» — это заглушки, их нужно считать как пустые.

Оцените консистентность. Возьмите поле «город» или «источник» и посмотрите, сколько уникальных значений. Если городов 500, а вы работаете только по Казахстану — что-то не так.

Проверьте актуальность. Возьмите случайную выборку из 50 клиентов и проверьте вручную: контакты актуальны? Люди ещё работают в указанных компаниях? Если треть устарела — база требует обновления.

Что делать: пошаговый план очистки

Допустим, аудит показал, что с данными плохо. Что теперь? Есть два подхода: героический и прагматичный.

Героический подход — почистить всю базу целиком, привести в идеальный порядок, и только потом запускать AI. Звучит логично, но на практике это означает проект на год, который никогда не закончится. Потому что пока вы чистите, данные продолжают портиться.

Прагматичный подход — почистить только то, что нужно для конкретного AI-проекта, и параллельно настроить процессы, чтобы новые данные вводились качественно. Это реалистичнее.

Начните с определения: какие данные нужны для вашего AI-проекта? Если это чат-бот для поддержки — нужна база знаний и история обращений. Если прогнозирование продаж — история сделок с датами и суммами. Если персонализация — данные о клиентах и их поведении. Очистите именно эти данные, не трогая остальное.

Дедупликация — объедините дубликаты в мастер-записи. Для этого нужно определить правила: какая запись считается основной, что делать с конфликтующей информацией. Есть инструменты автоматической дедупликации, но финальная проверка всё равно нужна вручную.

Заполнение пустот — решите, что делать с недостающими данными. Иногда можно восстановить из других источников. Иногда — дозаполнить вручную для ключевых клиентов. Иногда — оставить пустым, но учитывать это при анализе.

Нормализация — приведите значения к единому формату. Города — из справочника. Даты — в одном формате. Телефоны — с кодом страны. Это можно автоматизировать скриптами.

И главное — настройте процессы так, чтобы новые данные вводились правильно. Валидация на входе, обязательные поля, справочники вместо свободного ввода. Иначе через полгода вернётесь к тому же состоянию.

Сколько это стоит и сколько времени занимает

Вопрос, который всегда задают: «Окей, понятно, что данные надо чистить. Но это же дорого и долго?»

Зависит от масштаба проблемы. Если база небольшая (до 10 000 записей) и проблемы типовые (дубликаты, заглушки) — можно уложиться в пару недель работы и бюджет порядка 100–200 тысяч тенге на привлечённых специалистов. Или сделать силами своих сотрудников.

Если база большая (сотни тысяч записей), данные в нескольких системах, и проблемы накапливались годами — это проект на месяцы и миллионы тенге. Но без этого AI-проект всё равно не взлетит, и деньги на него будут потрачены зря.

Правило большого пальца: бюджет на подготовку данных — примерно 20–30% от бюджета AI-проекта. Если вы планируете потратить на AI миллион тенге, заложите 200–300 тысяч тенге на данные. Это не дополнительные расходы — это страховка от провала всего проекта.

Как предотвратить в будущем

Очистка данных — это лечение симптомов. Чтобы не возвращаться к этой проблеме снова и снова, нужно лечить причину.

Назначьте ответственного за качество данных. Это может быть отдельная роль или дополнительная функция существующего сотрудника. Главное — чтобы кто-то конкретный отвечал за состояние базы.

Создайте стандарты ввода данных. Документ на пару страниц: как писать имена, какой формат телефонов, какие значения допустимы в каждом поле. И добейтесь, чтобы все его знали и соблюдали.

Настройте валидацию. Система должна проверять данные на входе: формат email, длину телефона, заполненность обязательных полей. Не давать сохранять мусор.

Используйте справочники вместо свободного ввода. Город — из списка. Отрасль — из списка. Источник — из списка. Чем меньше свободного ввода, тем меньше разнобоя.

Регулярно проверяйте качество. Раз в квартал — быстрый аудит по ключевым метрикам. Заполненность падает? Дубликаты растут? Значит, что-то сломалось в процессах.

Интегрируйте системы. Если данные хранятся в одном месте и синхронизируются автоматически — меньше шансов на расхождения.

Не уверены в качестве ваших данных?

Проведём экспресс-аудит вашей базы данных и покажем реальную картину: сколько дубликатов, какая заполненность, где основные проблемы. Бесплатная диагностика — без обязательств.

Заказать аудит данных

Грязные данные — не приговор. Это диагноз, который можно вылечить. Проблема в том, что многие компании начинают AI-проект, не зная о своём диагнозе. Покупают дорогое решение, тратят месяцы на внедрение — и только потом обнаруживают, что данные не позволяют получить результат.

Начните с аудита. Посмотрите честно на свои данные. Порядок? Отлично, двигайтесь дальше. Бардак? Сначала наведите порядок, потом запускайте AI. Это скучнее, чем сразу бросаться в технологии. Зато работает.

Инвестиции в качество данных окупаются не только для AI. Чистая база — это лучшая аналитика, меньше ошибок в работе менеджеров, более точный маркетинг. Это фундамент, на котором можно строить что угодно.

Полезные материалы