Аружан, директор по развитию логистической компании в Астане, смотрела на экран ноутбука с выражением, которое я уже научился распознавать. Это было лицо человека, который только что понял, что его бот — не такой умный, как казалось.
«Понимаешь, — объясняла она, помешивая уже остывший капучино, — когда клиенты спрашивают про статус груза, ChatGPT справляется идеально. Быстро, точно, вежливо. Но стоит им начать жаловаться или задать что-то сложное про таможню — он начинает... фантазировать. Вчера клиенту из Шымкента бот сообщил, что груз уже в Алматы. А груз ещё в Китае стоял.»
Она вздохнула. «Мы месяц потратили на настройку промптов. Сделали базу знаний. Всё как в книжках. А он всё равно иногда врёт. И что теперь — выкидывать?»
Я улыбнулся. Потому что знал ответ. И этот ответ — не «выкидывать», а «добавить».
«Ни одна AI-модель не идеальна. GPT-4 отлично пишет тексты, но может галлюцинировать. Claude лучше анализирует, но дороже. Gemini быстрее, но хуже с русским языком. Умные компании не выбирают — они комбинируют.»
Давайте начнём с неудобной правды: каждая AI-модель на рынке — это компромисс. И чем раньше вы это примете, тем быстрее построите решение, которое реально работает.
Представьте, что вы выбираете машину. Toyota — надёжная и экономичная, но не самая быстрая. BMW — мощная, но дорогая в обслуживании. Tesla — технологичная, но попробуйте найти зарядку в Караганде. Вы же не говорите «какая машина лучше». Вы спрашиваете «для чего».
С AI-моделями та же история. Только вот большинство компаний почему-то решают, что им нужна одна модель на все случаи жизни. GPT-4 — и точка. Или Claude. Или «что там сейчас модно».
А потом удивляются, почему бот то гений, то идиот.
Сильные стороны:
Слабые стороны:
Сильные стороны:
Слабые стороны:
Сильные стороны:
Слабые стороны:
Видите закономерность? У каждой модели есть своя суперсила и своя ахиллесова пята. GPT-4 — король генерации, но иногда выдумывает факты. Claude — чемпион по точности, но стоит как крыло от самолёта. Gemini — быстрый и дешёвый, но с русским языком дружит не очень.
А теперь представьте: что если бы вы могли использовать каждую модель именно там, где она сильнее всего?
Это и есть композитный AI. Не «выбрать лучшее», а «взять лучшее от каждого».
Подробное сравнение всех моделей на рынке — в нашей статье Обзор AI-моделей 2025: ChatGPT, Claude, Gemini, Llama.
Окей, идея понятна — использовать разные модели для разных задач. Но как это реализовать на практике? Не будешь же вручную переключать ботов?
Конечно, нет. Для этого существует архитектура с маршрутизатором запросов. Звучит сложно, но на самом деле всё логично.
Представьте себе опытного руководителя колл-центра. К нему приходят звонки, и он за секунды решает: этот вопрос — на первую линию, этот — на техподдержку, а этот — сразу на руководителя отдела продаж. Он не делает работу сам — он распределяет её между теми, кто справится лучше всего.
AI-маршрутизатор работает точно так же. Он получает запрос от клиента, анализирует его за миллисекунды и отправляет к нужной модели.
Клиент
Отправляет запрос
ROUTER
Классифицирует запрос
Выбирает модель
AI-модели
Обрабатывают запрос
Маршрутизатор принимает решение за 50-100 мс — клиент не замечает задержки
На практике маршрутизатор — это либо простые правила (если вопрос про цену → GPT, если анализ документа → Claude), либо отдельная маленькая AI-модель, которая классифицирует запросы.
Вернёмся к логистической компании Аружан. После того как мы внедрили композитный подход, архитектура стала выглядеть так:
| Тип запроса | Модель | Почему именно она |
|---|---|---|
| Общие вопросы, FAQ | GPT-4o mini | Быстро, дёшево, отлично справляется с типовыми вопросами |
| Статус груза | GPT-4o | Хорошо форматирует ответы, работает с данными из CRM |
| Анализ документов | Claude 3.5 | Длинный контекст, точность при работе с накладными и счетами |
| Жалобы и конфликты | Claude 3.5 | Меньше галлюцинаций, более «человечные» ответы при негативе |
| Вопросы по таможне | Claude 3.5 | Точность критична — нельзя придумывать правила и сроки |
| Анализ фото груза | Gemini Pro Vision | Лучшая мультимодальность, быстрое распознавание повреждений |
Результат? Галлюцинации упали на 87%. Стоимость запроса снизилась на 34% — потому что простые вопросы теперь обрабатывает дешёвая модель, а дорогую мы включаем только когда это реально нужно.
А клиент из Шымкента больше не получает ложную информацию про груз в Алматы. Потому что вопросы про статус теперь уходят к модели, которая умеет честно говорить «не знаю, уточняю» вместо того, чтобы придумывать.
Теория — это хорошо. Но вы наверняка хотите конкретики: что именно отправлять в GPT, что в Claude, а что в Gemini?
За последний год мы внедрили композитный AI в двадцати с лишним компаниях Казахстана. От интернет-магазинов до банков. И вот что мы поняли про распределение задач:
Письма, КП, описания товаров
Чат-боты, ответы на вопросы
Краткое изложение переписки
Нейминг, слоганы, идеи
Договоры, накладные, отчёты
Юридика, финансы, медицина
Жалобы, претензии, конфликты
Анализ всей истории клиента
Фото товаров, скриншоты
Когда latency критична
Много запросов, нужна экономия
Search, Workspace, Maps
Это не догма — ситуации бывают разные. Но как отправная точка — работает отлично.
Один важный нюанс: не пытайтесь сразу внедрить все три модели. Начните с двух — например, GPT для общих вопросов и Claude для критичных. Добавите третью, когда поймёте, что нужна мультимодальность или супер-низкая задержка.
Подробнее о том, как выбрать LLM для конкретных бизнес-задач, читайте в статье Как выбрать LLM для бизнеса: критерии качества, стоимости и латентности.
«Погоди, — скажете вы. — Три провайдера вместо одного? Это же дороже!»
А вот и нет. И сейчас я покажу почему.
Типичная ошибка — считать, что все запросы одинаковые. Но на практике 70-80% обращений к бизнес-боту — это простые вопросы. «Работаете ли в субботу?», «Сколько стоит доставка?», «Где мой заказ?». Для этих вопросов GPT-4 Turbo — это как вызывать хирурга для измерения температуры. Дорого и бессмысленно.
| Цена за 1K токенов: | $0.005 |
| 10 000 запросов × 500 токенов: | 5 млн токенов |
| Итого в месяц: | $25 / ~12 750 тг |
| 70% простых → GPT-4o-mini ($0.00015): | $0.53 |
| 20% средних → GPT-4o ($0.005): | $5.00 |
| 10% сложных → Claude 3.5 ($0.003): | $1.50 |
| Итого в месяц: | $7.03 / ~3 585 тг |
При 100 000 запросов — экономия уже ~90 000 тенге. При этом качество ответов НЕ снижается, потому что сложные вопросы по-прежнему обрабатывает мощная модель.
Видите магию? Экономия 72% — и это ещё консервативный расчёт. На практике, когда маршрутизатор хорошо обучен, доля простых запросов может достигать 80-85%.
Но экономия — это только половина истории. Вторая половина — надёжность.
Детальный разбор экономики AI-ботов — в статье Оптимизация стоимости AI-бота: токены, кэш и model routing.
Это было в марте. Клиент — крупный интернет-магазин электроники из Алматы. Пятница, 10 утра, начало акции к 8 Марта. Трафик на сайте — в три раза выше обычного. Бот обрабатывает сотни запросов в минуту.
И тут OpenAI API... ложится. Не отвечает. Timeout.
У конкурентов, которые работали только на GPT, случился коллапс. Бот молчит, клиенты злятся, менеджеры не справляются с потоком, продажи падают.
У нашего клиента? Бот переключился на Claude за 200 миллисекунд. Клиенты даже не заметили. Продажи продолжились. А когда OpenAI через 40 минут восстановился — маршрутизатор спокойно перевёл часть нагрузки обратно.
GPT-4o отвечает за 80% запросов
РаботаетClaude 3.5 Sonnet при сбое GPT
Горячий резервGemini Pro или локальный LLM
Крайний случайВажно: переключение происходит автоматически за 100-300 мс. Клиент получает ответ — возможно, чуть другим тоном, но без ошибки «сервис недоступен».
За 2024 год OpenAI API испытывал проблемы в среднем 2-3 раза в месяц. Иногда на 5 минут, иногда на несколько часов. Anthropic — реже, но тоже бывает. Google — примерно на уровне OpenAI.
Когда у вас композитный AI, вы не зависите от одного провайдера. Упал один — работает другой. Это как иметь запасной генератор в больнице: надеешься, что не понадобится, но когда понадобился — спас жизни.
Подробнее о построении отказоустойчивых AI-систем — в статье Катастрофоустойчивость для AI-ботов: что делать, когда LLM недоступна.
Мы проанализируем ваши сценарии использования, подберём оптимальную комбинацию моделей и рассчитаем экономию. Первая консультация — бесплатно.
Получить консультациюХватит теории. Вот конкретный план, как перейти от монолитного бота к композитной архитектуре. Три недели — это реалистичный срок для компании, у которой уже есть работающий бот.
Три недели — это для компании с техническим ресурсом. Если у вас нет штатного разработчика, можно использовать готовые платформы с поддержкой multi-LLM «из коробки» — тогда срок сократится до 1-2 недель.
Главное — не пытаться сразу сделать идеально. Начните с простых правил («если в запросе слово жалоба → Claude»), посмотрите на результаты, итерируйте.
Вернёмся к практике. Сеть частных клиник в Казахстане — 5 филиалов, Алматы и Астана. Бот обрабатывает запись к врачам, ответы на вопросы о процедурах, напоминания.
Изначально всё работало на GPT-4 Turbo. Качественно, но дорого — около 480 000 тенге в месяц только на токены. Плюс регулярные жалобы: бот иногда «назначал» несуществующих врачей или путал цены.
Что мы сделали:
Снижение затрат
Меньше галлюцинаций
Рост uptime
Экономия тенге/мес
Ключевое изменение — мы отправили медицинские вопросы (симптомы, показания, противопоказания) в Claude. Эта модель гораздо осторожнее с утверждениями и чаще говорит «проконсультируйтесь с врачом» вместо того, чтобы выдумывать диагнозы.
А простые вопросы типа «работает ли педиатр в субботу» ушли в GPT-4o-mini — и это дало основную экономию.
Больше историй внедрения — в разделе Кейсы внедрения AI-ботов.
Для компаний в Казахстане есть ещё одна причина задуматься о композитном AI — это вопрос данных.
Некоторые данные нельзя или не хочется отправлять в облако. Персональные данные клиентов. Финансовая информация. Коммерческие тайны. Да и просто — зависимость от американских/европейских сервисов в текущей геополитике вызывает вопросы.
Композитный подход позволяет использовать локальные LLM (Llama, Mistral, YandexGPT, GigaChat) для чувствительных данных, а облачные модели — для всего остального.
Для казахстанских компаний, работающих с госзаказами, это особенно актуально. Данные остаются в периметре — а качество ответов не страдает, потому что для обычных задач всё ещё используются мощные облачные модели.
Подробнее о локальных LLM — в статье Локальные LLM для CRM: Llama, Mistral и приватность данных. А про интеграцию с российскими моделями — в материале Интеграция CRM с Yandex GPT и GigaChat.
Давайте подведём итог. Композитный AI — это не модное слово и не усложнение ради усложнения. Это прагматичный ответ на простой факт: идеальной AI-модели не существует.
GPT лучше пишет. Claude точнее анализирует. Gemini быстрее отвечает. Локальные модели сохраняют приватность. Умные компании используют всё это вместе — и получают лучшее от каждого мира.
Три главных преимущества композитного подхода:
История Аружан из начала статьи? Через два месяца после перехода на композитный AI её бот перестал выдумывать статусы грузов. Потому что вопросы про таможню теперь идут в Claude, который предпочитает сказать «уточняю» вместо того, чтобы фантазировать.
А стоимость? Упала на 41%. При том, что качество выросло.
Это не магия. Это архитектура.
Мы проанализируем ваши текущие сценарии, подберём оптимальную комбинацию моделей и поможем с внедрением. Первичный аудит — бесплатно.
Заказать аудит AI-архитектурыДетальное сравнение всех популярных LLM для бизнеса
Как снизить расходы на AI в 2-3 раза без потери качества
Что делать, когда LLM недоступна или работает некорректно
Автономные AI-агенты для бизнеса — возможности и ограничения