«Где разместить AI-систему?» — вопрос, который превращает планёрки в поле боя. IT хочет облако — меньше возни с железом. Безопасники требуют on-premise — данные под контролем. Финансы считают TCO и не могут договориться. Проект стоит.

Видел компании, которые принципиально выбирали on-premise «ради безопасности», а потом держали сервера в незапертой комнате с паролями на стикерах. И компании, боявшиеся облака, но при этом пересылающие документы через личную почту. Выбор инфраструктуры — не идеология. Это вопрос конкретных требований вашего бизнеса.

Разберу три варианта: облако, on-premise, гибрид. Без фанатизма, с практическими критериями. Цель — дать инструменты для решения, а не навязать «единственно правильный» путь.

Три модели: коротко

Чтобы говорить на одном языке.

Облако

Всё на инфраструктуре провайдера: серверы, хранилище, сети. Платите за использование, не владея железом. AWS, Azure, Google Cloud, локальные и региональные облака.

Внутри — градации. IaaS — виртуальные машины, софт ставите сами. PaaS — платформа с базами и ML-сервисами, пишете код. SaaS — готовое приложение, просто пользуетесь.

Для AI обычно комбинация: ML-платформа провайдера (SageMaker, Vertex AI) плюс свой код.

On-premise

Всё на своём железе — в дата-центре или серверной. Покупаете, ставите, обслуживаете. Полный контроль — и полная ответственность.

Вариация — colocation: ваши сервера в чужом дата-центре. Владеете железом, но не помещением. Связность и надёжность лучше, чем в офисной серверной.

Гибрид

Комбинация обоих. Чувствительное — локально. Пиковые нагрузки и менее критичное — в облаке. Между контурами — защищённый канал.

Звучит как «лучшее из обоих миров», но на практике — сложность обоих. Две инфраструктуры, интеграция, безопасность на стыке.

Критерии выбора

Что реально определяет решение?

Регуляторные требования

Иногда выбор делает за вас регулятор.

Персональные данные граждан РК — требуется соблюдение законодательства о защите ПДн. Облако не запрещено, но размещение должно соответствовать требованиям юрслужбы и регуляторов.

Банковская тайна, врачебная тайна, гостайна — жёсткие требования. Часто фактически означает on-premise или сертифицированные облака.

Госсистемы — повышенные требования к ИБ и аттестации. Тоже обычно on-premise или сертифицированное облако.

В регулируемой отрасли? Начните с анализа требований. Они могут сузить выбор до одного варианта.

Чувствительность данных

Даже без регуляторки данные различаются.

Публичные — каталоги, публикации. Храните где угодно.

Внутренние — процессы, финансы, HR. Нужна защита, но облако подходит при правильной настройке.

Конфиденциальные — коммерческая тайна, стратегия, R&D. Хочется больше контроля.

Секретные — утечка = катастрофа. On-premise или жёстко ограниченный доступ.

Честно оцените, с чем работает AI. Часто реально чувствительных данных меньше, чем кажется.

Производительность

AI, особенно inference в реальном времени, требователен.

Latency. Для голосового бота критично — ответ за 200-500 мс. Далёкое облако или медленная сеть — latency страдает.

Throughput. Сколько запросов в секунду? Облако масштабируется легко, on-premise требует планирования.

GPU. Модель требует GPU — в облаке арендуете, on-premise покупаете (дорого).

Пики. Нагрузка колеблется (сезонность, маркетинг) — облако эффективнее: платите за реальное использование.

Стоимость

Что дешевле? Зависит.

Облако дешевле на старте. Не покупаете железо, не нанимаете людей. Pay-as-you-go.

On-premise дешевле при постоянной нагрузке. Сервера на 70-80% круглосуточно — купить выгоднее. Но это редкость.

Скрытые затраты on-premise: помещение, электричество, охлаждение, UPS, резервирование, люди, запчасти, обновления. Забывают при сравнении.

Скрытые затраты облака: egress (исходящий трафик), растущий storage, premium support, переплата за неоптимальную конфигурацию.

Для честного сравнения считайте TCO на 3-5 лет со всеми затратами.

Скорость запуска

Как быстро нужно?

Облако — минуты-часы. Создали ресурсы, задеплоили, работаете.

On-premise — недели-месяцы. Тендеры, поставка, монтаж, настройка. «Лишние» сервера нужной конфигурации — редкость.

Для MVP и пилотов облако — почти всегда правильный выбор. Масштабирование решите позже.

Контроль

Насколько нужно «рулить»?

On-premise — полный контроль. Железо, ОС, сеть — всё решаете вы. Можно оптимизировать под задачу.

Облако — ограниченный. Выбираете из меню провайдера. Для большинства задач хватает, но иногда нужно нестандартное.

Контроль важен при: специфических GPU, очень низкой latency, интеграции с legacy-системами.

Отказоустойчивость

Что если сломается?

Облако — провайдер обеспечивает доступность. Репликация, auto-failover, geo-redundancy. Это их работа.

On-premise — ваша ответственность. Резервирование, RAID, UPS, запасной канал. Проектируете, покупаете, обслуживаете.

Типичная ошибка: критичная система на одном сервере без резервирования. В облаке за те же деньги — multi-AZ с авто-восстановлением.

Специфика AI

У AI-проектов есть особенности.

Обучение vs inference

Обучение — ресурсоёмкий, но периодический процесс. Много GPU на несколько часов/дней, потом простой. Облако идеально: арендовали, обучили, выключили.

Inference — постоянный процесс. Каждый запрос = inference. Нагрузка предсказуемее, но непрерывна. On-premise может быть экономичнее.

Гибрид: обучаем в облаке (GPU по требованию), inference — где данные.

Размер моделей

Маленькие (классификаторы, NER, sentiment) — CPU, скромные требования. Где угодно.

Средние (BERT-like, небольшие LLM) — один GPU справляется. Облако или on-premise.

Большие (GPT-4 class, LLaMA 70B+) — много GPU, специализированная инфраструктура. On-premise дорого, облако — основной вариант. Или API провайдера вместо своего деплоя.

Данные для обучения

Данные уже в облаке — обучайте там. Не гоняйте туда-сюда.

Данные on-premise и нельзя выносить — обучайте локально, используйте федеративное обучение или выносите только обезличенное.

Интеграции

AI обычно интегрируется с CRM, ERP, телефонией, мессенджерами.

Эти системы в облаке — AI там же. Низкая latency, простая интеграция.

Системы on-premise — сложнее. AI туда же или гибрид с защищённым каналом.

Когда облако

Оптимально, если:

Начинаете. MVP, пилот, эксперимент — быстрый старт без капитала на железо.

Нагрузка непредсказуема. Стартап, сезонность, маркетинговые всплески — облако масштабируется.

Нет своей инфраструктуры. Не технологическая компания, нет дата-центра — строить ради одного проекта нерационально.

Нужны специфические ресурсы. Редкие GPU, большие объёмы storage, глобальное распределение — в облаке из коробки.

Приоритет — скорость. Попробовали конфигурацию, не подошла — быстро перестроили.

На что смотреть

Провайдер. Для Казахстана — дата-центр в РК, понятные условия по безопасности и SLA.

Безопасность. Облако безопасно, если настроено правильно. Шифрование, access control, мониторинг — ваша ответственность.

Vendor lock-in. Больше специфических сервисов — сложнее мигрировать. Kubernetes и open-source снижают зависимость.

Затраты. Облако легко проедает бюджет. Alerts на расходы, регулярные ревью использования.

Когда on-premise

Оптимально, если:

Жёсткие требования. Гостайна, критическая инфраструктура, отраслевые ограничения, которые облака не покрывают.

Очень чувствительные данные. Утечка = катастрофа, доверять провайдеру не готовы.

Стабильная высокая нагрузка. Сервера на 70-80% круглосуточно, и вы уверены, что так будет.

Инфраструктура есть. Дата-центр, команда, процессы — добавить сервис проще, чем строить гибрид.

Нужен полный контроль. Специфическое железо, нестандартные конфигурации, глубокая интеграция с legacy.

На что смотреть

Полная стоимость. Помещение, электричество, охлаждение, люди, резервирование. Дороже, чем кажется.

Время. Закупка и настройка — недели-месяцы. Заложите в план.

DR. Один сервер — single point of failure. Резервирование, бэкапы, план восстановления — ваша ответственность.

Масштабирование. Больше мощности — закупка. Обновление софта — остановка или миграция. Планируйте заранее.

Когда гибрид

Оптимально, если:

Разные требования к данным. Чувствительное — локально, остальное — в облаке. ПДн клиентов on-premise, анонимизированная аналитика — в облаке.

Миграция. Нельзя перенести всё сразу — переезжаете постепенно. Гибрид как переходный этап.

Пиковые нагрузки. База on-premise, пики — cloud bursting.

Разные этапы пайплайна. Обучение в облаке (GPU по требованию), inference on-premise (рядом с данными).

На что смотреть

Сложность. Два контура, два набора процессов, две точки отказа. Нужна команда, способная тянуть и то, и другое.

Интеграция. Данные текут между контурами — безопасно, надёжно, с нормальной latency. Непросто.

Консистентность. Модель должна работать одинаково в обоих контурах. Версионирование, синхронизация — дополнительные задачи.

Безопасность на стыке. Канал между контурами — потенциальная точка атаки. VPN, шифрование, мониторинг обязательны.

Как выбрать

Простой алгоритм.

Шаг 1: Ограничения

Регуляторка запрещает облако? On-premise или сертифицированное облако.

Данные нельзя выносить? Для них — on-premise.

Ограничений нет? Дальше.

Шаг 2: Текущее состояние

Есть инфраструктура? On-premise проще добавить.

Есть опыт с облаком? Облако проще добавить.

Ничего нет? Облако — путь наименьшего сопротивления.

Шаг 3: Нагрузка

Стабильная и высокая? On-premise может быть экономичнее.

Переменная, пиковая, неизвестная? Облако гибче.

Обучение и эксперименты? Облако.

Шаг 4: TCO

Посчитайте реальную стоимость на 3-5 лет. Все затраты.

Разница меньше 30%? Выбирайте по другим критериям. Больше — весомый аргумент.

Шаг 5: Пилот

Сомневаетесь? Начните с облака. Работает — отлично. Нет — мигрируете. Пилот даст данные для решения.

Примеры

Ритейлер: облако

Онлайн-магазин, AI-рекомендации. Данные о покупках — персональные, но не особо чувствительные. Пики на распродажах. Своей инфраструктуры нет.

Решение: облако с локальным регионом, автомасштабирование, ML-платформа, CDN.

Результат: запуск за 2 месяца, чёрная пятница с 10-кратным ростом — пережили.

Банк: on-premise

Средний банк, AI-скоринг. Кредитные истории, финансовая информация. Жёсткие требования регулятора. Свой дата-центр был.

Решение: on-premise. GPU-сервера, ML-платформа, интеграция с core banking.

Результат: полный контроль, соответствие требованиям. Но запуск 8 месяцев, масштабирование — новые закупки.

Производство: гибрид

Завод, предиктивное обслуживание. Данные с датчиков — чувствительные (know-how). Для обучения нужны мощные GPU.

Решение: сбор и первичная обработка on-premise, обучение в облаке, готовые модели обратно для inference.

Результат: баланс контроля и ресурсов. Сложность — синхронизация между контурами.

Итого

Выбор между облаком, on-premise и гибридом — не идеология, а практика. Нет универсального ответа. Есть правильный ответ для вашей ситуации.

Начните с ограничений — регуляторика и чувствительность сузят выбор. Оцените, что есть, что строить. Посчитайте TCO честно. Сомневаетесь — начните с облака: быстрее, гибче, мигрировать проще, чем кажется.

Главное — не парализуйте проект обсуждениями инфраструктуры. Правильный выбор — тот, который позволяет запуститься и приносить ценность. Оптимизировать можно потом.