«Где разместить AI-систему?» — вопрос, который превращает планёрки в поле боя. IT хочет облако — меньше возни с железом. Безопасники требуют on-premise — данные под контролем. Финансы считают TCO и не могут договориться. Проект стоит.
Видел компании, которые принципиально выбирали on-premise «ради безопасности», а потом держали сервера в незапертой комнате с паролями на стикерах. И компании, боявшиеся облака, но при этом пересылающие документы через личную почту. Выбор инфраструктуры — не идеология. Это вопрос конкретных требований вашего бизнеса.
Разберу три варианта: облако, on-premise, гибрид. Без фанатизма, с практическими критериями. Цель — дать инструменты для решения, а не навязать «единственно правильный» путь.
Три модели: коротко
Чтобы говорить на одном языке.
Облако
Всё на инфраструктуре провайдера: серверы, хранилище, сети. Платите за использование, не владея железом. AWS, Azure, Google Cloud, локальные и региональные облака.
Внутри — градации. IaaS — виртуальные машины, софт ставите сами. PaaS — платформа с базами и ML-сервисами, пишете код. SaaS — готовое приложение, просто пользуетесь.
Для AI обычно комбинация: ML-платформа провайдера (SageMaker, Vertex AI) плюс свой код.
On-premise
Всё на своём железе — в дата-центре или серверной. Покупаете, ставите, обслуживаете. Полный контроль — и полная ответственность.
Вариация — colocation: ваши сервера в чужом дата-центре. Владеете железом, но не помещением. Связность и надёжность лучше, чем в офисной серверной.
Гибрид
Комбинация обоих. Чувствительное — локально. Пиковые нагрузки и менее критичное — в облаке. Между контурами — защищённый канал.
Звучит как «лучшее из обоих миров», но на практике — сложность обоих. Две инфраструктуры, интеграция, безопасность на стыке.
Критерии выбора
Что реально определяет решение?
Регуляторные требования
Иногда выбор делает за вас регулятор.
Персональные данные граждан РК — требуется соблюдение законодательства о защите ПДн. Облако не запрещено, но размещение должно соответствовать требованиям юрслужбы и регуляторов.
Банковская тайна, врачебная тайна, гостайна — жёсткие требования. Часто фактически означает on-premise или сертифицированные облака.
Госсистемы — повышенные требования к ИБ и аттестации. Тоже обычно on-premise или сертифицированное облако.
В регулируемой отрасли? Начните с анализа требований. Они могут сузить выбор до одного варианта.
Чувствительность данных
Даже без регуляторки данные различаются.
Публичные — каталоги, публикации. Храните где угодно.
Внутренние — процессы, финансы, HR. Нужна защита, но облако подходит при правильной настройке.
Конфиденциальные — коммерческая тайна, стратегия, R&D. Хочется больше контроля.
Секретные — утечка = катастрофа. On-premise или жёстко ограниченный доступ.
Честно оцените, с чем работает AI. Часто реально чувствительных данных меньше, чем кажется.
Производительность
AI, особенно inference в реальном времени, требователен.
Latency. Для голосового бота критично — ответ за 200-500 мс. Далёкое облако или медленная сеть — latency страдает.
Throughput. Сколько запросов в секунду? Облако масштабируется легко, on-premise требует планирования.
GPU. Модель требует GPU — в облаке арендуете, on-premise покупаете (дорого).
Пики. Нагрузка колеблется (сезонность, маркетинг) — облако эффективнее: платите за реальное использование.
Стоимость
Что дешевле? Зависит.
Облако дешевле на старте. Не покупаете железо, не нанимаете людей. Pay-as-you-go.
On-premise дешевле при постоянной нагрузке. Сервера на 70-80% круглосуточно — купить выгоднее. Но это редкость.
Скрытые затраты on-premise: помещение, электричество, охлаждение, UPS, резервирование, люди, запчасти, обновления. Забывают при сравнении.
Скрытые затраты облака: egress (исходящий трафик), растущий storage, premium support, переплата за неоптимальную конфигурацию.
Для честного сравнения считайте TCO на 3-5 лет со всеми затратами.
Скорость запуска
Как быстро нужно?
Облако — минуты-часы. Создали ресурсы, задеплоили, работаете.
On-premise — недели-месяцы. Тендеры, поставка, монтаж, настройка. «Лишние» сервера нужной конфигурации — редкость.
Для MVP и пилотов облако — почти всегда правильный выбор. Масштабирование решите позже.
Контроль
Насколько нужно «рулить»?
On-premise — полный контроль. Железо, ОС, сеть — всё решаете вы. Можно оптимизировать под задачу.
Облако — ограниченный. Выбираете из меню провайдера. Для большинства задач хватает, но иногда нужно нестандартное.
Контроль важен при: специфических GPU, очень низкой latency, интеграции с legacy-системами.
Отказоустойчивость
Что если сломается?
Облако — провайдер обеспечивает доступность. Репликация, auto-failover, geo-redundancy. Это их работа.
On-premise — ваша ответственность. Резервирование, RAID, UPS, запасной канал. Проектируете, покупаете, обслуживаете.
Типичная ошибка: критичная система на одном сервере без резервирования. В облаке за те же деньги — multi-AZ с авто-восстановлением.
Важно
On-premise ≠ безопаснее. Облачные провайдеры вкладывают в безопасность миллиарды. Если у вас нет сопоставимых ресурсов — ваш on-premise может быть защищён хуже облака.
Специфика AI
У AI-проектов есть особенности.
Обучение vs inference
Обучение — ресурсоёмкий, но периодический процесс. Много GPU на несколько часов/дней, потом простой. Облако идеально: арендовали, обучили, выключили.
Inference — постоянный процесс. Каждый запрос = inference. Нагрузка предсказуемее, но непрерывна. On-premise может быть экономичнее.
Гибрид: обучаем в облаке (GPU по требованию), inference — где данные.
Размер моделей
Маленькие (классификаторы, NER, sentiment) — CPU, скромные требования. Где угодно.
Средние (BERT-like, небольшие LLM) — один GPU справляется. Облако или on-premise.
Большие (GPT-4 class, LLaMA 70B+) — много GPU, специализированная инфраструктура. On-premise дорого, облако — основной вариант. Или API провайдера вместо своего деплоя.
Данные для обучения
Данные уже в облаке — обучайте там. Не гоняйте туда-сюда.
Данные on-premise и нельзя выносить — обучайте локально, используйте федеративное обучение или выносите только обезличенное.
Интеграции
AI обычно интегрируется с CRM, ERP, телефонией, мессенджерами.
Эти системы в облаке — AI там же. Низкая latency, простая интеграция.
Системы on-premise — сложнее. AI туда же или гибрид с защищённым каналом.
Когда облако
Оптимально, если:
Начинаете. MVP, пилот, эксперимент — быстрый старт без капитала на железо.
Нагрузка непредсказуема. Стартап, сезонность, маркетинговые всплески — облако масштабируется.
Нет своей инфраструктуры. Не технологическая компания, нет дата-центра — строить ради одного проекта нерационально.
Нужны специфические ресурсы. Редкие GPU, большие объёмы storage, глобальное распределение — в облаке из коробки.
Приоритет — скорость. Попробовали конфигурацию, не подошла — быстро перестроили.
На что смотреть
Провайдер. Для Казахстана — дата-центр в РК, понятные условия по безопасности и SLA.
Безопасность. Облако безопасно, если настроено правильно. Шифрование, access control, мониторинг — ваша ответственность.
Vendor lock-in. Больше специфических сервисов — сложнее мигрировать. Kubernetes и open-source снижают зависимость.
Затраты. Облако легко проедает бюджет. Alerts на расходы, регулярные ревью использования.
Когда on-premise
Оптимально, если:
Жёсткие требования. Гостайна, критическая инфраструктура, отраслевые ограничения, которые облака не покрывают.
Очень чувствительные данные. Утечка = катастрофа, доверять провайдеру не готовы.
Стабильная высокая нагрузка. Сервера на 70-80% круглосуточно, и вы уверены, что так будет.
Инфраструктура есть. Дата-центр, команда, процессы — добавить сервис проще, чем строить гибрид.
Нужен полный контроль. Специфическое железо, нестандартные конфигурации, глубокая интеграция с legacy.
На что смотреть
Полная стоимость. Помещение, электричество, охлаждение, люди, резервирование. Дороже, чем кажется.
Время. Закупка и настройка — недели-месяцы. Заложите в план.
DR. Один сервер — single point of failure. Резервирование, бэкапы, план восстановления — ваша ответственность.
Масштабирование. Больше мощности — закупка. Обновление софта — остановка или миграция. Планируйте заранее.
Когда гибрид
Оптимально, если:
Разные требования к данным. Чувствительное — локально, остальное — в облаке. ПДн клиентов on-premise, анонимизированная аналитика — в облаке.
Миграция. Нельзя перенести всё сразу — переезжаете постепенно. Гибрид как переходный этап.
Пиковые нагрузки. База on-premise, пики — cloud bursting.
Разные этапы пайплайна. Обучение в облаке (GPU по требованию), inference on-premise (рядом с данными).
На что смотреть
Сложность. Два контура, два набора процессов, две точки отказа. Нужна команда, способная тянуть и то, и другое.
Интеграция. Данные текут между контурами — безопасно, надёжно, с нормальной latency. Непросто.
Консистентность. Модель должна работать одинаково в обоих контурах. Версионирование, синхронизация — дополнительные задачи.
Безопасность на стыке. Канал между контурами — потенциальная точка атаки. VPN, шифрование, мониторинг обязательны.
Как выбрать
Простой алгоритм.
Шаг 1: Ограничения
Регуляторка запрещает облако? On-premise или сертифицированное облако.
Данные нельзя выносить? Для них — on-premise.
Ограничений нет? Дальше.
Шаг 2: Текущее состояние
Есть инфраструктура? On-premise проще добавить.
Есть опыт с облаком? Облако проще добавить.
Ничего нет? Облако — путь наименьшего сопротивления.
Шаг 3: Нагрузка
Стабильная и высокая? On-premise может быть экономичнее.
Переменная, пиковая, неизвестная? Облако гибче.
Обучение и эксперименты? Облако.
Шаг 4: TCO
Посчитайте реальную стоимость на 3-5 лет. Все затраты.
Разница меньше 30%? Выбирайте по другим критериям. Больше — весомый аргумент.
Шаг 5: Пилот
Сомневаетесь? Начните с облака. Работает — отлично. Нет — мигрируете. Пилот даст данные для решения.
Примеры
Ритейлер: облако
Онлайн-магазин, AI-рекомендации. Данные о покупках — персональные, но не особо чувствительные. Пики на распродажах. Своей инфраструктуры нет.
Решение: облако с локальным регионом, автомасштабирование, ML-платформа, CDN.
Результат: запуск за 2 месяца, чёрная пятница с 10-кратным ростом — пережили.
Банк: on-premise
Средний банк, AI-скоринг. Кредитные истории, финансовая информация. Жёсткие требования регулятора. Свой дата-центр был.
Решение: on-premise. GPU-сервера, ML-платформа, интеграция с core banking.
Результат: полный контроль, соответствие требованиям. Но запуск 8 месяцев, масштабирование — новые закупки.
Производство: гибрид
Завод, предиктивное обслуживание. Данные с датчиков — чувствительные (know-how). Для обучения нужны мощные GPU.
Решение: сбор и первичная обработка on-premise, обучение в облаке, готовые модели обратно для inference.
Результат: баланс контроля и ресурсов. Сложность — синхронизация между контурами.
Итого
Выбор между облаком, on-premise и гибридом — не идеология, а практика. Нет универсального ответа. Есть правильный ответ для вашей ситуации.
Начните с ограничений — регуляторика и чувствительность сузят выбор. Оцените, что есть, что строить. Посчитайте TCO честно. Сомневаетесь — начните с облака: быстрее, гибче, мигрировать проще, чем кажется.
Главное — не парализуйте проект обсуждениями инфраструктуры. Правильный выбор — тот, который позволяет запуститься и приносить ценность. Оптимизировать можно потом.