Переговорная комната в одном алматинском банке. IT-директор откидывается на стуле и говорит то, что мы уже слышали десятки раз: «Никакие данные клиентов не должны покидать наш контур. Ни один запрос — на внешние серверы. Это не обсуждается».
Раньше такие слова означали конец разговора про AI. Нет OpenAI — нет проекта. Но этот банк в итоге запустил умного помощника. Он работает на их собственных серверах, обрабатывает тысячи обращений в день, данные никуда не утекают. Регулятор доволен, безопасники не нервничают.
И это не уникальный случай. Финтех, медицина, госструктуры — всё чаще вопрос меняется с «можно ли развернуть LLM у себя» на «как это сделать и не сойти с ума». Путь непростой, но вполне реальный. Если знать, куда наступать нельзя.
«Мы потратили три месяца на выбор и настройку модели. Зато теперь спим спокойно: данные клиентов защищены, нет зависимости от внешних провайдеров, а стоимость каждого запроса в 8 раз ниже, чем была бы у OpenAI. Да, это инвестиция. Но для нашего масштаба она окупилась за полгода.»
Но прежде чем закапываться в железо и конфигурации — надо признать очевидное. Своя LLM-инфраструктура это боль. Много боли. Когда оно реально оправдано, а когда проще заплатить OpenAI и не мучиться?
Главная причина, по которой компании вообще смотрят в сторону self-hosted. Каждый запрос к ChatGPT или Claude — это ваши данные на чужих серверах. Для банков и финтеха это сразу стоп: регулятор требует локализации персональных данных. Медицинские организации не могут рисковать данными о здоровье пациентов. Госсектору часто запрещено использование иностранных облаков в принципе. Крупный бизнес с NDA понимает: информация о клиентах, сделках и внутренних процессах не должна покидать периметр.
Даже если провайдер обещает не использовать ваши данные для обучения (а OpenAI для API это гарантирует), сам факт передачи данных на внешние серверы может нарушать compliance-политики или условия договоров с клиентами.
В марте 2023-го OpenAI отрубил доступ к API для ряда регионов. Просто так. Без предупреждения. А уж сколько раз были outage, когда у миллионов пользователей всё встало — не сосчитать. Когда ваш бизнес-процесс висит на чужом API, вы заложник.
Своё железо — это контроль. Модель работает, пока работает ваш сервер. Никто не поднимет цены втрое, не поменяет условия, не отключит доступ. Вы сами решаете, когда обновляться и как настраивать.
Облачные API хороши на старте. Но когда у вас десятки тысяч запросов в день, счета начинают выглядеть неприятно. Оптимизация помогает, но у неё есть потолок.
Своё железо требует вложений на старте, зато каждый запрос обходится в 5-10 раз дешевле. При 50-100 тысячах запросов в день вы уже в плюсе. Точка окупаемости — вопрос математики, а не философии.
Fine-tuning в облаке есть, но с кучей ограничений. Своя модель — это свобода. Дообучить на корпоративных данных, сделать эксперта в вашей узкой области. Особенно актуально для сложных доменов: юристы, медики, инженеры — там где нужно понимать специфику, а не просто болтать.
Хорошая новость: за последние два года экосистема open-source моделей взорвалась разнообразием. Плохая новость: из-за этого выбор стал сложнее. Вот что сейчас есть на рынке и для каких задач это подходит.
Семейство Llama стало стандартом де-факто для self-hosted решений. Актуальная версия — Llama 3.1, доступная в размерах 8B, 70B и 405B параметров. Модель отлично работает с русским языком (что критично для Казахстана), имеет либеральную лицензию для коммерческого использования и широкую экосистему инструментов.
Llama 3.1 70B по качеству близка к GPT-4 в большинстве бизнес-задач, а 8B-версия — отличный выбор для запуска на скромном железе или для задач, где скорость важнее глубины понимания.
Французский стартап Mistral выпустил несколько интересных моделей. Mistral 7B удивительно хороша для своего размера — работает быстро даже на CPU. Mixtral 8x7B использует архитектуру Mixture of Experts, обеспечивая качество 70B-модели при меньших вычислительных затратах.
Особенно хорош Mistral для задач, где нужен баланс между скоростью и качеством: чат-боты для FAQ, классификация обращений, генерация коротких текстов.
Qwen 2.5 — тёмная лошадка, которая заслуживает внимания. Особенно хороша для работы с кодом и структурированными данными. Есть версии от 0.5B до 72B параметров, что даёт гибкость при выборе.
Для узких задач часто лучше работают fine-tuned версии базовых моделей. CodeLlama заточена под код, документацию, технические тексты — если ваш бот помогает разработчикам, это она. Llama-2-Chat оптимизирована для диалогов и хорошо держит контекст разговора. А для RAG-систем понадобятся отдельные embedding-модели типа BGE или E5 — они превращают текст в векторы для поиска.
| Модель | Параметров | VRAM (минимум) | Сильные стороны | Для каких задач |
|---|---|---|---|---|
| Llama 3.1 8B | 8B | 16 GB | Скорость, русский язык | Чат-боты, FAQ, классификация |
| Llama 3.1 70B | 70B | 80 GB* | Качество близко к GPT-4 | Сложные задачи, анализ, генерация |
| Mistral 7B | 7B | 14 GB | Эффективность, скорость | Быстрые ответы, edge-deployment |
| Mixtral 8x7B | 46B (активных 12B) | 48 GB | MoE-архитектура, баланс | Универсальные задачи |
| Qwen 2.5 72B | 72B | 80 GB* | Код, структурированные данные | Технические задачи, JSON-вывод |
* При квантизации до 4-bit требуется примерно в 2 раза меньше VRAM
Вот мы подошли к самому интересному (и дорогому) вопросу: на чём всё это запускать. Тут есть варианты от «хотим сэкономить» до «деньги не проблема, нужно качество».
Если вам нужна высокая скорость генерации и большие объёмы — без GPU не обойтись. Стандарт для продакшена — NVIDIA, потому что экосистема CUDA самая зрелая.
Теперь про конкретные карты. NVIDIA A100 (40GB или 80GB) — золотой стандарт для inference, одна карта потянет 70B-модель в 4-bit квантизации. Цена от $10 000 за б/у до $15 000+ за новую. H100 — следующее поколение, быстрее в 2-3 раза, но и стоит от $25 000, имеет смысл только для очень высоких нагрузок. RTX 4090 — потребительская карта, но с 24GB VRAM: потянет 8B-модели комфортно, 13B — впритык, цена около $2 000, хороший вариант для пилота. L40S — серверная альтернатива 4090 с 48GB VRAM за ~$7 000, отличный баланс цены и возможностей.
Звучит странно, но бывает, что CPU-inference — единственный вариант. Например, когда регулятор запрещает использование GPU-серверов в облаке, а своих GPU нет. Или когда нагрузка маленькая и покупать GPU нерационально.
Современные библиотеки вроде llama.cpp оптимизированы для CPU и используют AVX-инструкции. На хорошем серверном процессоре (Intel Xeon или AMD EPYC) можно получить 5-10 токенов в секунду для 7B-модели. Это медленно, но для некоторых задач достаточно.
Ключевое требование — много RAM. Для 7B-модели в 4-bit квантизации нужно минимум 8GB RAM, для 70B — около 40GB.
На практике часто работает гибридная схема. Маленькая модель (7-8B) крутится на GPU и отвечает за быстрые ответы и массовые задачи. Большая модель (70B) живёт на CPU или в облаке и подключается только для сложных случаев. А model routing решает, какую модель использовать для конкретного запроса — простой вопрос идёт на быструю модель, сложный — на умную.
До 5 000 запросов/день
Бюджет: ~$5 000
5 000 - 50 000 запросов/день
Бюджет: ~$20 000
50 000+ запросов/день
Бюджет: ~$80 000+
Скачать модель — это только начало. Дальше её нужно превратить в работающий сервис, который можно интегрировать с CRM, чат-ботом или другими системами. Рассмотрим типичный стек.
Есть несколько популярных решений для запуска моделей:
Между inference-сервером и вашими приложениями обычно стоит API-шлюз, который решает несколько задач:
Популярные варианты: LiteLLM (OpenAI-совместимый API для любых моделей), Kong или Nginx с плагинами, собственные решения на FastAPI/Flask.
Сама по себе LLM знает только то, на чём обучена. Чтобы она отвечала по вашим данным (документация, база знаний, история клиентов), нужен RAG-пайплайн:
Развернуть модель — полдела. Дальше начинается эксплуатация: мониторинг, обновления, устранение инцидентов. Тут есть свои нюансы.
LLM-инфраструктура требует специфических метрик помимо стандартных CPU/RAM/диск:
Для мониторинга подходят стандартные инструменты: Prometheus + Grafana, Datadog. vLLM и TGI имеют встроенные метрики для Prometheus.
Настройте алерты на критичные ситуации:
Новые версии моделей выходят регулярно. Как обновляться безопасно:
Сколько на самом деле стоит владеть своим LLM? Посчитаем Total Cost of Ownership для реального сценария — компании, которая обрабатывает 30 000 запросов в день.
Единоразовые инвестиции в железо:
| Компонент | Спецификация | Стоимость |
|---|---|---|
| Сервер | Dell/HPE с поддержкой GPU | $8 000 |
| GPU | 2x NVIDIA L40S (48GB) | $14 000 |
| RAM | 256GB DDR5 | $2 000 |
| SSD | 2TB NVMe | $500 |
| Итого CAPEX | $24 500 | |
Ежемесячные расходы:
| Статья | Расчёт | $/месяц |
|---|---|---|
| Электричество | ~1.5 кВт * 24ч * 30 дней * $0.10 | $110 |
| Колокация / место в ЦОД | 1U-2U в Казахстане | $200-400 |
| Интернет / каналы | 100 Мбит dedicated | $100 |
| Инженер (частичная занятость) | 20% времени DevOps/ML-инженера | $800 |
| Итого OPEX | $1 210 - $1 410 | |
30 000 запросов в день — это ~900 000 в месяц. При среднем запросе в 2000 токенов (input + output):
При 30 000 запросов/день self-hosted решение окупается за 5-6 месяцев по сравнению с GPT-4 Turbo и за 12-14 месяцев по сравнению с Claude Sonnet. После этого — чистая экономия.
Местная специфика добавляет несколько нюансов к типовому сценарию.
Варианты для физического размещения GPU-серверов в Казахстане:
NVIDIA A100 и H100 в Казахстане купить непросто — санкционные ограничения и дефицит. Варианты:
Главная проблема — кадры. ML-инженеров с опытом inference-оптимизации в Казахстане единицы. Варианты решения:
Поможем выбрать модель, спроектировать архитектуру и запустить пилот. Опыт развёртывания для банков, телекома и enterprise в Казахстане.
Обсудить проектЕсли вы решили двигаться в сторону self-hosted LLM — вот реалистичный план действий.
Общий срок: 3-5 месяцев от старта до продакшена. Это не быстро, но для серьёзного проекта — реалистично.
Self-hosted LLM — это не серебряная пуля и не магия. Это инженерный проект, который требует инвестиций, экспертизы и постоянного внимания. Но для правильных use cases это может быть единственным разумным решением.
Вот честный итог:
И помните: гибридные сценарии тоже работают. Можно держать чувствительные данные на своей инфраструктуре, а для общих задач использовать облачные API. Главное — осознанно выбирать, понимая trade-offs каждого варианта.
Технологии развиваются стремительно. Модели становятся меньше и эффективнее, инструменты — проще. То, что вчера требовало команды из десяти инженеров, сегодня можно развернуть вдвоём. Если self-hosted LLM казался вам чем-то недостижимым — пересмотрите эту позицию. Возможно, время пришло.
Хотите копнуть глубже? Статья про on-premise LLM — архитектура, ограничения, расчёт TCO. Про конкретные модели — Llama, Mistral и приватность данных. Если выбираете подход — fine-tuning vs RAG vs промпт. Про экономию — как снижать стоимость AI-бота. И про качество — golden set, метрики, A/B-тесты.