Переговорная комната в одном алматинском банке. IT-директор откидывается на стуле и говорит то, что мы уже слышали десятки раз: «Никакие данные клиентов не должны покидать наш контур. Ни один запрос — на внешние серверы. Это не обсуждается».
Раньше такие слова означали конец разговора про AI. Нет OpenAI — нет проекта. Но этот банк в итоге запустил умного помощника. Он работает на их собственных серверах, обрабатывает тысячи обращений в день, данные никуда не утекают. Регулятор доволен, безопасники не нервничают.
И это не уникальный случай. Финтех, медицина, госструктуры — всё чаще вопрос меняется с «можно ли развернуть LLM у себя» на «как это сделать и не сойти с ума». Путь непростой, но вполне реальный. Если знать, куда наступать нельзя.
«Мы потратили три месяца на выбор и настройку модели. Зато теперь спим спокойно: данные клиентов защищены, нет зависимости от внешних провайдеров, а стоимость каждого запроса в 8 раз ниже, чем была бы у OpenAI. Да, это инвестиция. Но для нашего масштаба она окупилась за полгода.»
Но прежде чем закапываться в железо и конфигурации — надо признать очевидное. Своя LLM-инфраструктура это боль. Много боли. Когда оно реально оправдано, а когда проще заплатить OpenAI и не мучиться?
Главная причина, по которой компании вообще смотрят в сторону self-hosted. Каждый запрос к ChatGPT или Claude — это ваши данные на чужих серверах. Для многих бизнесов это сразу нет:
Даже если провайдер обещает не использовать ваши данные для обучения (а OpenAI для API это гарантирует), сам факт передачи данных на внешние серверы может нарушать compliance-политики или условия договоров с клиентами.
В марте 2023-го OpenAI отрубил доступ к API для ряда регионов. Просто так. Без предупреждения. А уж сколько раз были outage, когда у миллионов пользователей всё встало — не сосчитать. Когда ваш бизнес-процесс висит на чужом API, вы заложник.
Своё железо — это контроль. Модель работает, пока работает ваш сервер. Никто не поднимет цены втрое, не поменяет условия, не отключит доступ. Вы сами решаете, когда обновляться и как настраивать.
Облачные API хороши на старте. Но когда у вас десятки тысяч запросов в день, счета начинают выглядеть неприятно. Оптимизация помогает, но у неё есть потолок.
Своё железо требует вложений на старте, зато каждый запрос обходится в 5-10 раз дешевле. При 50-100 тысячах запросов в день вы уже в плюсе. Точка окупаемости — вопрос математики, а не философии.
Fine-tuning в облаке есть, но с кучей ограничений. Своя модель — это свобода. Дообучить на корпоративных данных, сделать эксперта в вашей узкой области. Особенно актуально для сложных доменов: юристы, медики, инженеры — там где нужно понимать специфику, а не просто болтать.
Хорошая новость: за последние два года экосистема open-source моделей взорвалась разнообразием. Плохая новость: из-за этого выбор стал сложнее. Вот что сейчас есть на рынке и для каких задач это подходит.
Семейство Llama стало стандартом де-факто для self-hosted решений. Актуальная версия — Llama 3.1, доступная в размерах 8B, 70B и 405B параметров. Модель отлично работает с русским языком (что критично для Казахстана), имеет либеральную лицензию для коммерческого использования и широкую экосистему инструментов.
Llama 3.1 70B по качеству близка к GPT-4 в большинстве бизнес-задач, а 8B-версия — отличный выбор для запуска на скромном железе или для задач, где скорость важнее глубины понимания.
Французский стартап Mistral выпустил несколько интересных моделей. Mistral 7B удивительно хороша для своего размера — работает быстро даже на CPU. Mixtral 8x7B использует архитектуру Mixture of Experts, обеспечивая качество 70B-модели при меньших вычислительных затратах.
Особенно хорош Mistral для задач, где нужен баланс между скоростью и качеством: чат-боты для FAQ, классификация обращений, генерация коротких текстов.
Qwen 2.5 — тёмная лошадка, которая заслуживает внимания. Особенно хороша для работы с кодом и структурированными данными. Есть версии от 0.5B до 72B параметров, что даёт гибкость при выборе.
Для узких задач часто лучше работают fine-tuned версии базовых моделей:
| Модель | Параметров | VRAM (минимум) | Сильные стороны | Для каких задач |
|---|---|---|---|---|
| Llama 3.1 8B | 8B | 16 GB | Скорость, русский язык | Чат-боты, FAQ, классификация |
| Llama 3.1 70B | 70B | 80 GB* | Качество близко к GPT-4 | Сложные задачи, анализ, генерация |
| Mistral 7B | 7B | 14 GB | Эффективность, скорость | Быстрые ответы, edge-deployment |
| Mixtral 8x7B | 46B (активных 12B) | 48 GB | MoE-архитектура, баланс | Универсальные задачи |
| Qwen 2.5 72B | 72B | 80 GB* | Код, структурированные данные | Технические задачи, JSON-вывод |
* При квантизации до 4-bit требуется примерно в 2 раза меньше VRAM
Вот мы подошли к самому интересному (и дорогому) вопросу: на чём всё это запускать. Тут есть варианты от «хотим сэкономить» до «деньги не проблема, нужно качество».
Если вам нужна высокая скорость генерации и большие объёмы — без GPU не обойтись. Стандарт для продакшена — NVIDIA, потому что экосистема CUDA самая зрелая.
Какие карты подходят:
Звучит странно, но бывает, что CPU-inference — единственный вариант. Например, когда регулятор запрещает использование GPU-серверов в облаке, а своих GPU нет. Или когда нагрузка маленькая и покупать GPU нерационально.
Современные библиотеки вроде llama.cpp оптимизированы для CPU и используют AVX-инструкции. На хорошем серверном процессоре (Intel Xeon или AMD EPYC) можно получить 5-10 токенов в секунду для 7B-модели. Это медленно, но для некоторых задач достаточно.
Ключевое требование — много RAM. Для 7B-модели в 4-bit квантизации нужно минимум 8GB RAM, для 70B — около 40GB.
На практике часто работает гибридная схема:
До 5 000 запросов/день
Бюджет: ~$5 000
5 000 - 50 000 запросов/день
Бюджет: ~$20 000
50 000+ запросов/день
Бюджет: ~$80 000+
Скачать модель — это только начало. Дальше её нужно превратить в работающий сервис, который можно интегрировать с CRM, чат-ботом или другими системами. Рассмотрим типичный стек.
Есть несколько популярных решений для запуска моделей:
Между inference-сервером и вашими приложениями обычно стоит API-шлюз, который решает несколько задач:
Популярные варианты: LiteLLM (OpenAI-совместимый API для любых моделей), Kong или Nginx с плагинами, собственные решения на FastAPI/Flask.
Сама по себе LLM знает только то, на чём обучена. Чтобы она отвечала по вашим данным (документация, база знаний, история клиентов), нужен RAG-пайплайн:
Развернуть модель — полдела. Дальше начинается эксплуатация: мониторинг, обновления, устранение инцидентов. Тут есть свои нюансы.
LLM-инфраструктура требует специфических метрик помимо стандартных CPU/RAM/диск:
Для мониторинга подходят стандартные инструменты: Prometheus + Grafana, Datadog. vLLM и TGI имеют встроенные метрики для Prometheus.
Настройте алерты на критичные ситуации:
Новые версии моделей выходят регулярно. Как обновляться безопасно:
Сколько на самом деле стоит владеть своим LLM? Посчитаем Total Cost of Ownership для реального сценария — компании, которая обрабатывает 30 000 запросов в день.
Единоразовые инвестиции в железо:
| Компонент | Спецификация | Стоимость |
|---|---|---|
| Сервер | Dell/HPE с поддержкой GPU | $8 000 |
| GPU | 2x NVIDIA L40S (48GB) | $14 000 |
| RAM | 256GB DDR5 | $2 000 |
| SSD | 2TB NVMe | $500 |
| Итого CAPEX | $24 500 | |
Ежемесячные расходы:
| Статья | Расчёт | $/месяц |
|---|---|---|
| Электричество | ~1.5 кВт * 24ч * 30 дней * $0.10 | $110 |
| Колокация / место в ЦОД | 1U-2U в Казахстане | $200-400 |
| Интернет / каналы | 100 Мбит dedicated | $100 |
| Инженер (частичная занятость) | 20% времени DevOps/ML-инженера | $800 |
| Итого OPEX | $1 210 - $1 410 | |
30 000 запросов в день — это ~900 000 в месяц. При среднем запросе в 2000 токенов (input + output):
При 30 000 запросов/день self-hosted решение окупается за 5-6 месяцев по сравнению с GPT-4 Turbo и за 12-14 месяцев по сравнению с Claude Sonnet. После этого — чистая экономия.
Местная специфика добавляет несколько нюансов к типовому сценарию.
Варианты для физического размещения GPU-серверов в Казахстане:
NVIDIA A100 и H100 в Казахстане купить непросто — санкционные ограничения и дефицит. Варианты:
Главная проблема — кадры. ML-инженеров с опытом inference-оптимизации в Казахстане единицы. Варианты решения:
Поможем выбрать модель, спроектировать архитектуру и запустить пилот. Опыт развёртывания для банков, телекома и enterprise в Казахстане.
Обсудить проектЕсли вы решили двигаться в сторону self-hosted LLM — вот реалистичный план действий.
Общий срок: 3-5 месяцев от старта до продакшена. Это не быстро, но для серьёзного проекта — реалистично.
Self-hosted LLM — это не серебряная пуля и не магия. Это инженерный проект, который требует инвестиций, экспертизы и постоянного внимания. Но для правильных use cases это может быть единственным разумным решением.
Вот честный итог:
И помните: гибридные сценарии тоже работают. Можно держать чувствительные данные на своей инфраструктуре, а для общих задач использовать облачные API. Главное — осознанно выбирать, понимая trade-offs каждого варианта.
Технологии развиваются стремительно. Модели становятся меньше и эффективнее, инструменты — проще. То, что вчера требовало команды из десяти инженеров, сегодня можно развернуть вдвоём. Если self-hosted LLM казался вам чем-то недостижимым — пересмотрите эту позицию. Возможно, время пришло.