Вот история, от которой любой CISO покроется холодным потом: AI-ассистент техподдержки "запоминает" номер карты клиента, а через неделю выплёвывает его совершенно постороннему человеку в ответ на хитрый промпт. Такие инциденты уже случались — и будут случаться, пока вокруг LLM не построена нормальная DLP-защита.
Чат с нейросетью — это не просто окошко для переписки. Это труба, по которой в вашу инфраструктуру могут утекать PII: телефоны, номера договоров, медицинские записи. Без контроля вы рискуете нарушить Закон РК о персональных данных и GDPR, нарваться на штрафы и, что болезненнее, потерять доверие клиентов.
Ниже — практическая схема для CTO и COO без лишней воды. Только рабочие механики: очистка PII, безопасные логи, политики хранения, шифрование. Всё, чтобы ваш AI оставался умным, но "немым" в отношении секретов.
Чтобы понять, где ставить защиту, давайте проследим путь сообщения от пользователя к AI и обратно. Это не просто "запрос-ответ", это конвейер обработки.
Запрос пользователя
→ API Gateway (Аутентификация)
→ PII Scrubber (Очистка: поиск PII и замена на токены)
→ Policy Router (Проверка: можно ли этому юзеру говорить об этом?)
→ LLM Proxy (Отправка очищенного промпта модели)
→ Post-filter (Проверка ответа модели: не выдала ли лишнего?)
→ Delivery (Доставка ответа в чат/веб)
→ Audit Log (Запись безопасных логов)
Главное правило: PII (Personal Identifiable Information) умирают на этапе PII Scrubber. В саму LLM, в логи провайдера и в ваши внутренние логи попадают только обезличенные токены (например, <PHONE_NUMBER_1>). Обратное превращение (де-токенизация) происходит только в самый последний момент перед показом ответа пользователю, и только если это абсолютно необходимо.
Просто заменить всё звездочками (***) — плохая идея. Модель потеряет контекст. Если клиент спрашивает "Измените мой номер на ...", а модель видит "Измените *** на ***", она не поймет, о чем речь.
+7(900)123-45-67 в +7(000)987-65-43. Формат на месте, модель понимает — это телефон, но реальные цифры скрыты. Критично для бизнес-логики.REAL_DATA ↔ TOKEN. Доступ к этому сейфу должен быть у минимального числа сервисов.| Метод | Где лучше применять | Плюсы / Минусы |
|---|---|---|
Полное удаление (Redaction)***** |
Для вывода на экран операторам, в небезопасных логах. | Максимально безопасно. Теряется контекст и связь данных. |
Токенизация (Masking)<PHONE_ID_1> |
В промптах LLM, в аналитических логах, в RAG. | Сохраняет смысл (это телефон) и связи (тот же телефон). Требует сложной системы управления ключами (Vault). |
Хешированиеsha256(salt+phone) |
Для поиска дублей, антифрода, статистики. | Дешево, необратимо (без ключа). Нельзя восстановить исходник, если он понадобится. |
Меньше данных — меньше добычи для хакеров. Соблазн "сохранить всё для дообучения" в эпоху AI огромен, но это западня.
user_id. Без ключей зашифрованные логи превращаются в цифровой мусор, который невозможно прочитать.Ключи от королевства — не для каждого. Принцип Need-to-Know здесь критичен как нигде.
.env) — это прошлый век и дыра в безопасности.Логи — первое, куда лезут хакеры (и аудиторы). Ваша задача — сделать их бесполезной добычей.
В: Сильно ли тормозит маскирование данных?
О: Незначительно. Современные NER-модели и регулярные выражения добавляют всего 5–15 мс задержки. Для голосовых ботов это может быть критично, там используют асинхронную подмену, но для чата это незаметно.
В: Можно ли хранить векторные эмбеддинги PII? Это безопасно?
О: Это "серая зона". Технически восстановить текст из вектора сложно, но возможно. Лучшая практика — токенизировать данные до векторизации. Тогда в векторной базе будут лежать векторы токенов, что абсолютно безопасно.
В: Как юридически оформить работу с LLM-провайдером?
О: Обязательно подпишите DPA (Data Processing Agreement). Убедитесь, что провайдер (OpenAI, Anthropic и др.) обязуется не обучать свои модели на ваших данных (у большинства есть опция Opt-out или Enterprise API с Zero-data retention).
В: С чего начать, если денег на дорогие DLP-системы нет?
О: Начните с open-source библиотек для PII Scrubbing (например, Microsoft Presidio) и жестких политик логирования. Это закроет 80% рисков бесплатно.
Мы помогаем компаниям строить безопасные контуры вокруг LLM. Настроим скраббинг, vault, политики доступов и научим вашу команду жить с этим. Работаем быстро, безопасно и без доступа к вашим реальным данным.
Запросить консультацию