Представьте ситуацию: ваш финансовый директор спрашивает у ChatGPT, как оптимизировать налоговую нагрузку компании. Или юрист загружает в облачный сервис конфиденциальный договор для анализа. Или менеджер по продажам просит сгенерировать коммерческое предложение, указав реальные цены и условия для крупного клиента.
Каждое такое действие — это потенциальная утечка данных. И дело не в том, что OpenAI или другие провайдеры злонамеренно используют вашу информацию. Просто по условиям большинства сервисов данные могут храниться, использоваться для обучения моделей или передаваться третьим сторонам. Для многих компаний — особенно банков, страховых, госструктур, крупных холдингов — это неприемлемый риск.
Отсюда растущий интерес к корпоративному GPT в закрытом контуре. Это когда языковая модель работает исключительно на вашей инфраструктуре, данные никуда не уходят, а вы полностью контролируете, что происходит с запросами сотрудников.
Ниже — практический разбор из нашего опыта в CrmAI: когда закрытый контур действительно нужен, а когда это избыточное усложнение. Покажу типовую архитектуру, логику выбора моделей и как считается экономика проекта. Отдельно разберём ошибки, которые чаще всего ломают внедрение.
Начну с неприятной правды: большинству компаний закрытый контур не нужен. Это дорого, сложно в поддержке и требует квалифицированной команды. Если ваша компания работает с публичной информацией, а сотрудники используют AI для типовых задач вроде написания текстов или перевода — облачные решения вполне подойдут.
Но есть ситуации, когда альтернативы закрытому контуру просто нет. Мы в CrmAI разработали чек-лист из семи признаков — если вы узнаёте себя хотя бы в трёх пунктах, стоит серьёзно рассмотреть on-premise развёртывание.
Прежде чем бежать покупать серверы, давайте разберёмся с несколькими заблуждениями. Облачные решения не так уж небезопасны, как кажется на первый взгляд.
Миф первый: «OpenAI читает все наши запросы». На самом деле, при использовании API (не веб-интерфейса) данные по умолчанию не используются для обучения моделей. Это прописано в условиях сервиса и можно дополнительно подтвердить через DPA (Data Processing Agreement).
Миф второй: «Данные хранятся вечно». У большинства провайдеров есть чёткие политики retention — данные удаляются через 30 дней или даже быстрее. Некоторые сервисы предлагают zero-retention режим.
Миф третий: «Облако = отсутствие контроля». Существуют промежуточные решения: Azure OpenAI Service, AWS Bedrock, private endpoints. Данные остаются в вашем виртуальном облаке, не смешиваются с другими клиентами, вы контролируете геолокацию серверов.
Если ваши требования не настолько жёсткие — возможно, вам подойдёт именно такой компромиссный вариант. Он значительно дешевле полноценного on-premise и не требует своей инфраструктуры.
Когда мы говорим о корпоративном GPT в закрытом контуре, речь идёт не просто об установке модели на сервер. Это целая экосистема компонентов, которые должны работать вместе. Ниже — состав этой экосистемы по слоям.
На верхнем уровне архитектура выглядит так: пользователи обращаются к системе через интерфейс (веб-приложение, чат-бот, API), запрос проходит через слой безопасности и маршрутизации, попадает в inference-движок, который работает с моделью, и возвращается ответ. Параллельно работают системы логирования, мониторинга и управления.
| Компонент | Назначение | Варианты реализации |
|---|---|---|
| Inference-сервер | Запуск модели и обработка запросов | vLLM, TensorRT-LLM, Text Generation Inference (HuggingFace), Ollama |
| API Gateway | Аутентификация, rate limiting, маршрутизация | Kong, Traefik, собственная разработка на FastAPI/Go |
| Векторная база | Хранение эмбеддингов для RAG | Qdrant, Milvus, pgvector, Weaviate |
| Система логирования | Аудит запросов, отладка, compliance | ELK Stack, Loki + Grafana, собственное решение |
| Оркестратор | Управление контейнерами и масштабирование | Kubernetes, Docker Swarm, Nomad |
Выбор способа развёртывания зависит от масштаба, имеющейся инфраструктуры и компетенций команды. Ниже — три базовых подхода, которые реально используются.
Bare metal (физические серверы). Максимальная производительность, полный контроль, но и максимальная сложность. Нужно самим закупать оборудование, настраивать охлаждение (GPU серьёзно греются), заботиться о резервировании. Подходит для очень крупных компаний с собственным ЦОД или для ситуаций, когда требования безопасности исключают любую виртуализацию.
Kubernetes-кластер. Наиболее распространённый вариант. Гибкое масштабирование, удобное управление, можно использовать как собственное оборудование, так и арендованные GPU-серверы в частном облаке. Требует компетенций в DevOps/MLOps. Мы в CrmAI чаще всего рекомендуем именно этот подход.
Виртуализация (VMware, Proxmox). Компромиссный вариант для компаний, где уже есть виртуальная инфраструктура. Проще в управлении, чем Kubernetes, но может быть сложнее с проброском GPU. Хорошо работает для пилотных проектов и небольших нагрузок.
Самый частый вопрос: «Сколько нужно GPU?». Ответ зависит от выбранной модели и ожидаемой нагрузки. Приведу ориентировочные цифры для типовых сценариев.
| Сценарий | Модель | Минимальные требования | Рекомендуемая конфигурация |
|---|---|---|---|
| Пилот на 10-50 пользователей | Llama 3.1 8B / Qwen2.5 7B | 1x NVIDIA RTX 4090 (24GB) | 1x NVIDIA A100 40GB |
| Продакшн на 100-500 пользователей | Llama 3.1 70B / Qwen2.5 72B | 2x NVIDIA A100 80GB | 4x NVIDIA A100 80GB или 2x H100 |
| Enterprise 1000+ пользователей | Llama 3.1 405B или кластер моделей | 8x NVIDIA H100 80GB | Кластер с 16+ H100, балансировка нагрузки |
Помимо GPU, не забывайте про остальное железо: быстрые NVMe-диски (модели занимают десятки гигабайт, загрузка должна быть быстрой), достаточно оперативной памяти (минимум в 2 раза больше, чем VRAM GPU), быстрое сетевое соединение между нодами кластера (для больших моделей критично).
И отдельная история — охлаждение. Одна NVIDIA H100 потребляет до 700 Вт под нагрузкой. Кластер из восьми таких карт — это 5-6 кВт только на GPU, не считая остального оборудования. Нужно серьёзно продумать систему охлаждения или размещать оборудование в специализированном ЦОД.
Когда ChatGPT недоступен, приходится выбирать из open-source или локально развёртываемых решений. Хорошая новость: за последние два года качество открытых моделей выросло настолько, что для большинства бизнес-задач они уже не уступают GPT-3.5, а лучшие приближаются к GPT-4.
Разберём основных игроков и их особенности — особенно с точки зрения работы на русском языке, потому что это часто становится камнем преткновения.
| Модель | Размеры | Качество на русском | Лицензия | Особенности |
|---|---|---|---|---|
| Llama 3.1 (Meta) | 8B, 70B, 405B | Хорошее (улучшено в 3.1) | Llama 3.1 Community License | Отличный баланс качества и скорости. Большое сообщество, много инструментов |
| Qwen 2.5 (Alibaba) | 7B, 14B, 32B, 72B | Очень хорошее | Apache 2.0 (до 72B), Qwen License (72B+) | Отличная работа с многоязычным контентом. Есть версии для кода и математики |
| Mistral (Mistral AI) | 7B, Mixtral 8x7B, Large 123B | Хорошее | Apache 2.0 (7B, Mixtral), коммерческая (Large) | Высокая скорость inference, эффективная архитектура MoE |
| GigaChat (Сбер) | API / on-premise по запросу | Отличное | Коммерческая | Нативная поддержка русского. Сертификация для работы с ПД |
| YandexGPT | API / dedicated по запросу | Отличное | Коммерческая | Нативный русский, интеграция с экосистемой Яндекса |
Исходя из нашего опыта внедрений, вот несколько практических советов.
Для большинства задач начните с Qwen 2.5 или Llama 3.1 в размере 70B. Это sweet spot между качеством и ресурсами. Модели работают достаточно быстро на двух A100 и справляются с большинством бизнес-задач: ответы на вопросы, суммаризация, генерация текстов, работа с документами.
Если русский язык критичен и бюджет позволяет — рассмотрите GigaChat. Сбер предлагает варианты on-premise развёртывания для крупных заказчиков. Модель отлично понимает русский, включая специфику деловой переписки, юридический язык, разговорную речь. Плюс есть сертификаты для работы с персональными данными.
Для пилота с ограниченным бюджетом — Qwen 2.5 7B или Llama 3.1 8B. Эти модели можно запустить даже на игровой видеокарте RTX 4090. Качество будет ниже, чем у больших моделей, но для проверки концепции и понимания, какие задачи вообще можно решить — вполне достаточно.
Если нужна максимальная скорость ответа — смотрите на Mistral. Архитектура Mixture of Experts позволяет получать ответы быстрее при том же качестве. Особенно актуально для сценариев реального времени: чат-боты, голосовые ассистенты.
Обратите внимание на лицензии — не все «открытые» модели можно использовать без ограничений. Llama 3.1 требует согласия с условиями Meta и имеет ограничения для компаний с более чем 700 млн пользователей. Qwen 72B+ имеет ограничения на коммерческое использование в некоторых сценариях.
Для российских компаний также важен вопрос происхождения модели. Если вы работаете с госконтрактами — использование китайских или американских моделей может вызвать вопросы. В таких случаях GigaChat или другие отечественные решения будут более предпочтительны.
Мы проведём тестирование на ваших задачах и данных, сравним качество разных моделей и дадим рекомендации по оптимальной конфигурации.
Получить консультациюОдин из главных вопросов при принятии решения — экономика. Давайте честно посчитаем, во что обойдётся каждый вариант. Спойлер: универсального ответа нет, всё зависит от объёма использования.
Возьмём типовой сценарий: компания с 200 активными пользователями, средняя интенсивность использования — 20 запросов на пользователя в день, средняя длина запроса и ответа — 1000 токенов.
| Статья расходов | Облако (OpenAI API) | On-premise (Llama 70B) |
|---|---|---|
| Единоразовые затраты | ||
| Оборудование (GPU-сервер) | $0 | $150,000 - $200,000 |
| Настройка инфраструктуры | $5,000 - $10,000 | $30,000 - $50,000 |
| Ежемесячные затраты | ||
| Стоимость API / электричество | $8,000 - $15,000 | $1,500 - $2,500 |
| DevOps / MLOps поддержка | $2,000 - $3,000 | $5,000 - $8,000 |
| Размещение в ЦОД (если нет своего) | $0 | $2,000 - $4,000 |
| Итого за 3 года | ||
| Общая стоимость | $370,000 - $660,000 | $450,000 - $700,000 |
Как видите, при умеренном использовании затраты примерно сопоставимы. Но есть важные нюансы, которые могут кардинально изменить картину.
Облачные решения выигрывают в нескольких сценариях. Во-первых, на старте проекта, когда объёмы небольшие и непредсказуемые. Вы платите только за фактическое использование, нет капитальных затрат. Во-вторых, для компаний без собственной IT-инфраструктуры — разворачивать Kubernetes с нуля только ради GPT нерационально. В-третьих, когда нужен доступ к самым современным моделям — GPT-4 Turbo, Claude 3.5 пока недоступны для on-premise.
On-premise становится экономически оправданным при высокой интенсивности использования. Если ваши сотрудники отправляют сотни запросов в день, счета за API быстро станут неподъёмными. Также on-premise выигрывает в долгосрочной перспективе — через 2-3 года оборудование окупается, и остаётся только стоимость эксплуатации.
Ещё один неочевидный фактор — предсказуемость. CFO любят фиксированные расходы. С on-premise вы точно знаете, сколько потратите в следующем месяце. С облаком расходы могут скакать в разы в зависимости от активности пользователей.
При расчёте TCO on-premise часто упускают несколько статей. Обновление оборудования: GPU устаревают, через 3-4 года захочется апгрейд. Обучение команды: Kubernetes и ML-инфраструктура требуют специфических компетенций. Время на отладку: первые месяцы после запуска будут «сырыми», готовьтесь к доработкам. Резервирование: для критичных систем нужен второй комплект оборудования.
С облаком свои подводные камни: внезапные изменения тарифов (OpenAI уже несколько раз менял цены), лимиты на запросы (rate limits могут стать проблемой при масштабировании), зависимость от внешнего провайдера.
Главная причина, по которой компании выбирают закрытый контур — безопасность. Но просто развернуть модель на своих серверах недостаточно. Нужно правильно настроить контроль доступа, аудит, политики обработки данных.
Первое, что нужно настроить — это разграничение доступа. Не все сотрудники должны иметь одинаковые права. Стажёр из отдела маркетинга и финансовый директор — это разные уровни доступа к чувствительной информации.
Мы рекомендуем внедрять систему ролей (RBAC — Role-Based Access Control) с самого начала. Типовые роли: базовый пользователь (общие вопросы, без доступа к конфиденциальным данным), продвинутый пользователь (может работать с внутренними документами), администратор (настройка системы, просмотр логов). Для каждой роли определяются доступные функции, лимиты на запросы, категории данных.
Аудит — не менее важная часть. Все запросы и ответы должны логироваться. Это нужно не только для безопасности, но и для отладки, анализа использования, контроля качества. При этом важно продумать, как долго хранить логи (баланс между compliance и приватностью), кто имеет доступ к логам, как обеспечить неизменяемость логов (чтобы нельзя было «подчистить» следы).
Если система будет работать с персональными данными (а в большинстве корпоративных сценариев будет), нужно соблюдать требования 152-ФЗ. Ключевые моменты: данные должны храниться на территории России, необходимо получить согласие субъектов на обработку, нужно обеспечить возможность удаления данных по запросу, требуется назначить ответственного за обработку ПД.
Практический совет: внедрите механизм маскирования PII (персонально идентифицируемой информации) до отправки в модель. Замените реальные ФИО, телефоны, номера документов на плейсхолдеры, получите ответ, подставьте реальные данные обратно. Это добавляет сложности, но значительно снижает риски.
Для некоторых отраслей требуется формальная сертификация системы. Если вы работаете с государственными информационными системами — потребуется сертификат ФСТЭК. Для международных компаний или работы с европейскими клиентами — ISO 27001. Для банков — соответствие требованиям ЦБ по информационной безопасности.
Важно понимать: сертификация — это длительный и дорогой процесс. Если она действительно требуется, закладывайте на это отдельный бюджет и минимум 6-12 месяцев. Если требования менее строгие — возможно, достаточно внутреннего аудита и документирования политик безопасности.
За время работы в CrmAI мы выработали методологию внедрения, которая минимизирует риски и позволяет получить работающую систему в разумные сроки. Делюсь этим планом.
Прежде чем что-то внедрять, нужно понять, что именно внедрять. На этом этапе мы проводим серию интервью с ключевыми стейкхолдерами: IT-директором, службой безопасности, представителями бизнес-подразделений. Выясняем:
На выходе — документ с техническими требованиями, архитектурой решения, планом проекта и бюджетной оценкой.
Не пытайтесь сразу внедрить систему на всю компанию. Начните с пилотной группы — энтузиастов, которые готовы тестировать, давать обратную связь, мириться с шероховатостями.
На этом этапе разворачиваем минимальную инфраструктуру: один GPU-сервер, базовый интерфейс, простейшую интеграцию. Главная цель — проверить гипотезы: подходит ли выбранная модель для задач компании? Какие сценарии использования реально востребованы? Какие проблемы возникают?
По итогам пилота корректируем план: возможно, нужна другая модель, дополнительные интеграции, иная архитектура. Лучше узнать это на маленькой группе, чем после rollout на всю компанию.
После успешного пилота начинаем масштабирование. Этот этап включает: закупку и настройку продакшн-оборудования, настройку отказоустойчивости и бэкапов, интеграцию с корпоративными системами (SSO, CRM, 1С), разработку полноценного пользовательского интерфейса, настройку мониторинга и алертинга, обучение пользователей и администраторов, документирование процессов.
Масштабирование лучше делать постепенно: сначала один отдел, потом другой. Это позволяет отлавливать проблемы на ранних этапах и не парализовать всю компанию в случае сбоя.
Внедрение — это не финиш, а старт. После запуска начинается самое интересное: анализ использования, выявление новых сценариев, оптимизация производительности, обновление моделей на более новые версии.
Рекомендуем заложить ресурсы на постоянную поддержку: минимум один DevOps/MLOps инженер на part-time или договор на сопровождение с подрядчиком. Система будет требовать внимания — обновления безопасности, мониторинг производительности, реакция на инциденты.
Набили шишек достаточно — и своих, и насмотрелись на чужие проекты. Вот пять ошибок, которые встречаются чаще всего.
Многие сразу хотят Llama 405B или аналог GPT-4. Это требует дорогого оборудования и сложной инфраструктуры. Начните с модели поменьше — 7-14B. Для большинства задач этого достаточно. Если не хватит — всегда можно upgrade.
Модель сама по себе не знает специфику вашего бизнеса. Без подключения базы знаний (RAG) она будет давать общие ответы или выдумывать. Внедрение RAG должно быть частью проекта с самого начала.
«Купим один сервер и запустим» — так не работает. Нужно резервирование, мониторинг, бэкапы, план восстановления. Если система критична для бизнеса — готовьтесь к расходам на надёжность.
Технически идеальная система бесполезна, если люди ею не пользуются. Нужны удобный интерфейс, обучение, поддержка на первых порах, сбор обратной связи. Change management — это часть проекта.
Как понять, что внедрение успешно? Нужны измеримые показатели: количество запросов, удовлетворённость пользователей, экономия времени на рутинных задачах. Определите их до начала проекта.
Корпоративный GPT в закрытом контуре — это серьёзный проект, требующий инвестиций, компетенций и времени. Но для компаний с жёсткими требованиями к безопасности данных это единственный способ использовать возможности современных языковых моделей.
Коротко зафиксирую ключевые выводы:
Если вы рассматриваете внедрение корпоративного GPT в вашей компании — мы готовы помочь на любом этапе: от аудита требований до полного развёртывания и сопровождения.
Оценим вашу текущую инфраструктуру, определим оптимальную архитектуру решения и рассчитаем бюджет проекта. Без обязательств.
Заказать аудитСтатьи, которые помогут глубже разобраться в теме: