Стоит заговорить о внедрении AI, как кто-нибудь обязательно спросит: «А как же персональные данные?» Дальше — знакомый сценарий. Юристы хмурятся, безопасники качают головой, проект зависает. Знакомо? Видел десятки компаний, которые откладывали автоматизацию именно из-за страха нарушить закон и получить штраф.

И вот парадокс: те же компании годами хранят персональные данные в Excel-файлах на ноутбуках менеджеров, пересылают их в мессенджерах и вообще не думают о compliance. Но как только появляется AI-проект — включается режим паранойи. Это нелогично. Правильно спроектированная AI-система зачастую безопаснее тех ручных процессов, которые она заменяет.

В этой статье — попытка разобраться с реальными требованиями закона и показать рабочий путь к compliance. Не юридический талмуд, а практический подход для тех, кто хочет внедрить AI и при этом спать спокойно.

Что на самом деле требует закон

Начнём с самого пугающего — законодательства. В Казахстане это Закон РК «О персональных данных и их защите», для международных компаний добавляется GDPR. Звучит грозно, но на практике требования вполне подъёмные.

Главный принцип — законное основание обработки (обычно согласие). Нужно получить согласие, прежде чем собирать, хранить и использовать персональные данные. Это касается любой обработки, не только AI. Если у вас есть клиентская база в CRM — значит, вы уже как-то это решаете. AI-проект не создаёт новую проблему, он работает в рамках существующих процессов.

Второй — целевое использование. Данные можно обрабатывать только для тех целей, на которые получено согласие. Клиент согласился на «оказание услуг», а вы используете его данные для обучения модели, которую потом продаёте — это нарушение. Но если AI помогает оказывать те же услуги лучше и быстрее — это в рамках изначального согласия.

Третий — минимизация. Собирайте только то, что реально нужно. Это не только про compliance — это и про здравый смысл. Зачем хранить то, что не используется?

Четвёртый — безопасность. Данные должны быть защищены от несанкционированного доступа, изменения, утечки. Требование не специфично для AI — касается любых систем с персональными данными.

Почему AI-проекты вызывают особую тревогу

Если требования те же, что для любой системы с персональными данными, откуда столько вопросов вокруг AI? Причины понятны.

Непрозрачность. Когда данные обрабатывает человек — понятно, что происходит. Когда нейросеть — не очень. «Чёрный ящик» пугает, особенно юристов и регуляторов. Решаемо: документирование, объяснимость решений, аудит — всё это делает AI понятнее.

Новизна. Закон писался до массового AI. Часть формулировок устарела, часть ситуаций не покрыта явно. Отсюда неопределённость. Но неопределённость — не запрет. Где закон молчит, работает принцип разумности.

Громкие скандалы. Штрафы GDPR, утечки, истории про злоупотребления — всё это создаёт фон «AI = риск». Но если копнуть в конкретные кейсы, проблема обычно не в AI, а в небрежном отношении к данным вообще.

Иностранные вендоры. Если AI-сервис крутится на серверах за рубежом — возникает вопрос трансграничной передачи. Ограничение реальное, но решаемое: выбирайте решения с размещением в Казахстане или разворачивайте на своей инфраструктуре.

Какие данные обрабатывает AI и зачем

Прежде чем паниковать, разберёмся, какие данные реально участвуют в AI-проекте. Зависит от типа системы.

Чат-бот. В диалоге появляются имена, иногда телефоны и email (когда клиент сам их сообщает), история обращений, контекст проблемы. Это персональные данные, но они и так есть в CRM. Бот работает с теми же данными, что и оператор.

Голосовой помощник. Добавляется голос — потенциально биометрия. Категория более чувствительная. Но если вы просто транскрибируете речь для обработки запроса (а не создаёте голосовой «отпечаток» для идентификации), требования мягче.

RPA-робот. Работает с документами — счетами, договорами, заявлениями. Там могут быть ФИО, паспорта, адреса. Но эти данные и так обрабатываются вручную. Робот просто делает то же самое быстрее.

AI-аналитика. Тут интереснее. Для обучения моделей используются исторические данные клиентов. Вопрос: это новый вид обработки, требующий отдельного согласия? Зависит от формулировки изначального согласия и целей аналитики.

Обучение внешних моделей. Отправляете данные клиентов в ChatGPT для «дообучения» — это трансграничная передача с передачей прав на использование. Вот тут действительно нужна осторожность.

Пошаговый подход к compliance

Теперь практика. Как подойти к вопросу персональных данных в AI-проекте системно, без паники и юридического паралича.

Шаг 1: Аудит потоков данных

Прежде чем думать о compliance, разберитесь, что происходит с данными. Составьте карту: откуда приходят, где обрабатываются, куда передаются, где хранятся.

Какие данные попадают в AI? Откуда — CRM, формы на сайте, мессенджеры? В каком виде — сырые или обезличенные? Какие поля — полные ФИО или только имя?

Где обрабатываются? На ваших серверах или в облаке? В Казахстане или за рубежом? У вас или у вендора?

Куда уходят результаты? Ответ бота идёт клиенту — а что с логами диалога? Сохраняются? Где? У кого доступ?

Сколько хранятся? Есть retention policy? Или всё лежит вечно «на всякий случай»?

Эта карта — фундамент для любых решений. Без неё разговор о compliance беспредметен.

Шаг 2: Классификация данных по чувствительности

Не все персональные данные одинаково «опасны». Закон делит их на категории:

Общедоступные — те, что человек сам выложил публично. Имя и должность в LinkedIn. С ними проще всего.

Обычные — ФИО, телефон, email, адрес. Основная масса клиентских данных. Нужно согласие и защита, но ничего экзотического.

Специальные категории — здоровье, политические взгляды, интимная жизнь. По умолчанию обрабатывать нельзя.

Биометрия — фото, голос, отпечатки для идентификации. Отдельные требования, письменное согласие обязательно.

Большинство бизнес-AI проектов работают с обычными данными. Но если вы в медицине или используете голосовую идентификацию — требования строже.

Шаг 3: Проверка правовых оснований

Для обработки нужно правовое основание. Три главных варианта:

Согласие. Классика. Должно быть конкретным, информированным и добровольным. Человек понимает, зачем и что будет.

Договор. Для доставки нужен адрес — отдельное согласие не требуется, это часть договора купли-продажи.

Законный интерес. Можно обрабатывать, если это нужно для бизнеса и не нарушает права человека. Пример — борьба с мошенничеством. Но основание спорное, интерпретация размыта.

Для AI-проекта вопрос простой: покрывает ли текущее согласие (или договор) то, что вы планируете? Бот отвечает вместо оператора — скорее да. Данные уходят на обучение внешней модели — скорее нет, нужно новое согласие.

Шаг 4: Минимизация и анонимизация

Лучший способ избавиться от проблемы — не иметь данных. Серьёзно: если можно обойтись без ФИО и телефонов — обходитесь.

Псевдонимизация. Вместо «Иван Петров» — «Клиент_12345». Связь с реальными данными хранится отдельно, доступ ограничен. AI работает только с псевдонимами.

Обезличивание. «Мужчина, 35–40 лет, Алматы» — уже не персональные данные. Идентифицировать человека невозможно. Требования к ПДн не применяются.

Маскирование. Телефон как +7 (9**) ***-**-45. Для многих задач полный номер не нужен — достаточно факта, что он есть.

Для обучения моделей часто хватает обезличенных данных. Для работы в реальном времени нужны конкретные данные, но логи можно маскировать.

Шаг 5: Техническая защита

Закон требует «необходимые меры». На практике это:

Шифрование. И при хранении, и при передаче. В облаке — стандарт. На своих серверах — проверьте.

Контроль доступа. Не все должны видеть всё. Бот — минимум для ответа. Оператор — больше. Админ — всё. Плюс логи: кто куда заходил.

DLP. Системы предотвращения утечек ловят попытки отправить данные на почту, скопировать на флешку, сделать скриншот.

Бэкапы. Данные должны быть защищены от потери. Но помните: бэкапы — тоже персональные данные со всеми вытекающими.

Удаление. Когда данные не нужны — удаляйте. Не «скрывайте», а именно удаляйте. Нужна retention policy.

Особенности разных AI-систем

Пройдёмся по типам решений и их нюансам.

Чат-боты

В диалоге клиент может написать что угодно — от имени до паспортных данных. Что делать?

Не спрашивайте лишнего. Для ответа не нужен паспорт — не просите. И UX лучше, и compliance проще.

Предупреждайте. «Не указывайте конфиденциальную информацию в чате» — часть ответственности переходит на клиента.

Маскируйте логи. Клиент написал номер карты — в логах он должен быть скрыт. Автодетект и маскирование PII.

CRM-интеграция. Бот подтягивает данные из CRM — работает с тем же, что и оператор. Новых оснований не нужно.

Голосовые помощники

Голос — потенциально биометрия. Но есть нюансы.

Распознавание речи (ASR) — не биометрия. Вы переводите звук в текст, а не идентифицируете человека.

Voice ID для идентификации — уже биометрия. Письменное согласие до начала обработки.

Записи звонков требуют уведомления: «разговор может быть записан». Но если записи используются для обучения AI — это должно быть в согласии явно.

RPA-роботы

RPA работает с документами и системами, где уже есть персональные данные. Делает то же, что делал человек — только быстрее.

Доступ. У робота своя учётка с минимальными правами. Не «аккаунт уволенного», а специальный сервисный.

Логи. Что сделал, когда, с какими данными. Для аудита и расследования инцидентов.

Передача. Робот переносит данные между системами — это обработка. Если одна система за рубежом — трансграничная передача.

AI-аналитика и ML-модели

Тут сложнее. Для обучения нужны данные — иногда много.

Обезличивание. Если можно обучить на обезличенных данных — делайте так. Для классификации обращений и sentiment analysis хватает.

Синтетика. Искусственные данные, статистически похожие на реальные. Не связаны с конкретными людьми. Для некоторых задач — отличный выход.

Согласие. Если обезличить нельзя — нужно согласие. «Для улучшения качества услуг, включая аналитику и машинное обучение».

Федеративное обучение. Модель учится на данных, не покидающих ваш контур. Сложнее технически, но данные никуда не уходят.

Иностранные AI-сервисы

OpenAI, Anthropic, Google — все за рубежом. Как быть?

Трансграничная передача возможна, но с оговорками. Нужна «адекватная защита» в стране назначения или дополнительные гарантии в договоре.

Проще — использовать решения с дата-центрами в РК или развернуть open-source модели (LLaMA, Mistral) на своих серверах.

Если без зарубежного сервиса никак — минимизируйте. Не отправляйте ФИО, телефоны, адреса. Псевдонимы: «Клиент спрашивает о статусе заказа» — без указания, какой именно.

Проверяйте политику. OpenAI Enterprise, например, даёт гарантии: данные не для обучения, хранятся ограниченно, размещаются в конкретных регионах. Это должно быть в договоре.

Документация

Compliance — не только техника, но и бумаги. Без них никуда.

Политика обработки ПДн. Какие данные собираете, зачем, как защищаете, кому передаёте. Публичная и актуальная.

Согласия. Формы должны быть конкретными: какие данные, для чего, кому, на какой срок.

Уведомление регулятора. Для Казахстана — уполномоченный орган по защите ПДн. Разовая процедура, ничего сложного.

Реестр обработки. Внутренний документ: все системы с ПДн, цели, категории, сроки хранения. AI-системы — тоже в реестре.

DPIA. Оценка воздействия для высокорискованных обработок: профилирование, массовая обработка спецкатегорий. Анализ рисков и меры защиты.

Когда нужен юрист

Не каждый проект требует армии юристов.

Справитесь сами: обычные ПДн (не здоровье, не биометрия), данные в Казахстане, compliance для других систем уже есть, AI делает то же, что делали люди.

Нужен юрист: спецкатегории данных, трансграничная передача, регулируемая отрасль (финансы, медицина, телеком), был инцидент.

Нужен специалист по AI-compliance: разрабатываете продукт для рынка, данные клиентов идут на обучение моделей, несколько юрисдикций.

Рабочий подход: первичный анализ сами, определяете неясные зоны, по ним — точечная консультация. Дешевле аутсорса, эффективнее самодеятельности.

Реальные риски

Честно о том, что может случиться при несоблюдении.

Штрафы. В Казахстане санкции ощутимые. Хуже штрафов — проверки, предписания и репутационные последствия. Лучше выстроить compliance заранее.

Репутация. Утечка или скандал — удар по имиджу. Для B2C критично. Для B2B — зависит от отрасли.

Иски. Субъекты ПДн могут подать в суд. На практике редкость — долго и неочевидно. Но прецеденты есть.

Проверки. Регулятор проводит плановые и внеплановые. AI пока не в фокусе, но это может измениться.

Блокировка. В крайних случаях — приостановка деятельности. Редкость, но бывает.

По опыту: разумный подход снижает риски до приемлемого уровня. Не параноик, но и не раздолбай. Фокус на реальные риски, а не формальные галочки.

Чек-лист

Пройдитесь перед запуском.

Данные: Какие ПДн? Какая категория? Можно минимизировать? Обезличить? Где хранятся — в РК или за рубежом?

Основания: Есть согласие? Покрывается договором? Формулировки конкретные?

Защита: Шифрование? Контроль доступа? Логи? Retention policy?

Вендоры: Где серверы? Политика данных? Договор поручения?

Документы: Политика ПДн актуальна? AI в реестре? Нужна DPIA?

Инциденты: Процесс реагирования есть? Знаете, кого уведомлять?

Итого

Персональные данные — не препятствие для AI. Это ограничение, которое учитывается как любое другое. С правильным подходом compliance — часть процесса, а не барьер.

Не паникуйте и не откладывайте. Лучших времён не будет — требования только ужесточаются. Лучше начать правильно сейчас, чем переделывать потом.

Хорошо спроектированная AI-система часто безопаснее ручных процессов. Логирование, контроль доступа, маскирование — в AI это проще, чем в хаосе Excel-файлов и мессенджеров.

Используйте статью как старт. Для большинства проектов хватит. Для сложных — точечные консультации. Двигайтесь вперёд: AI-автоматизация стоит того, чтобы разобраться с compliance.