Композитный AI: как объединить GPT, Claude и Gemini в одном…
  • AI Архитектура
  • Автор: Команда CrmAI
  • Опубликовано:
Композитный AI — объединение GPT, Claude и Gemini в одном решении для бизнеса

Аружан, директор по развитию логистической компании в Астане, смотрела на экран ноутбука с выражением, которое я уже научился распознавать. Это было лицо человека, который только что понял, что его бот — не такой умный, как казалось.

«Понимаешь, — объясняла она, помешивая уже остывший капучино, — когда клиенты спрашивают про статус груза, ChatGPT справляется идеально. Быстро, точно, вежливо. Но стоит им начать жаловаться или задать что-то сложное про таможню — он начинает... фантазировать. Вчера клиенту из Шымкента бот сообщил, что груз уже в Алматы. А груз ещё в Китае стоял.»

Она вздохнула. «Мы месяц потратили на настройку промптов. Сделали базу знаний. Всё как в книжках. А он всё равно иногда врёт. И что теперь — выкидывать?»

Я улыбнулся. Потому что знал ответ. И этот ответ — не «выкидывать», а «добавить».

«Ни одна AI-модель не идеальна. GPT-4 отлично пишет тексты, но может галлюцинировать. Claude лучше анализирует, но дороже. Gemini быстрее, но хуже с русским языком. Умные компании не выбирают — они комбинируют.»

Принцип композитного AI
Архитектурный подход 2025 года
Цитата

Почему одной AI-модели недостаточно: честный разговор

Давайте начнём с неудобной правды: каждая AI-модель на рынке — это компромисс. И чем раньше вы это примете, тем быстрее построите решение, которое реально работает.

Представьте, что вы выбираете машину. Toyota — надёжная и экономичная, но не самая быстрая. BMW — мощная, но дорогая в обслуживании. Tesla — технологичная, но попробуйте найти зарядку в Караганде. Вы же не говорите «какая машина лучше». Вы спрашиваете «для чего».

С AI-моделями та же история. Только вот большинство компаний почему-то решают, что им нужна одна модель на все случаи жизни. GPT-4 — и точка. Или Claude. Или «что там сейчас модно».

А потом удивляются, почему бот то гений, то идиот.

Честное сравнение: в чём каждая модель сильна и слаба

GPT
OpenAI GPT-4 / GPT-4o

Сильные стороны:

  • Лучшая генерация текста
  • Широкая экосистема и API
  • Отличное понимание контекста
  • Хорошая работа с русским

Слабые стороны:

  • Склонность к галлюцинациям
  • Высокая стоимость на объёме
  • Периодические сбои API
Claude
Anthropic Claude 3.5

Сильные стороны:

  • Меньше галлюцинаций
  • Длинный контекст (200K)
  • Лучший анализ документов
  • Безопаснее для бизнеса

Слабые стороны:

  • Дороже GPT на 20-40%
  • Меньше интеграций
  • Иногда «слишком осторожен»
Gemini
Google Gemini Pro

Сильные стороны:

  • Очень низкая задержка
  • Дешевле конкурентов
  • Отличная мультимодальность
  • Интеграция с Google

Слабые стороны:

  • Хуже с русским языком
  • Менее «творческий»
  • Ограниченный контекст

Видите закономерность? У каждой модели есть своя суперсила и своя ахиллесова пята. GPT-4 — король генерации, но иногда выдумывает факты. Claude — чемпион по точности, но стоит как крыло от самолёта. Gemini — быстрый и дешёвый, но с русским языком дружит не очень.

А теперь представьте: что если бы вы могли использовать каждую модель именно там, где она сильнее всего?

Это и есть композитный AI. Не «выбрать лучшее», а «взять лучшее от каждого».

Подробное сравнение всех моделей на рынке — в нашей статье Обзор AI-моделей 2025: ChatGPT, Claude, Gemini, Llama.

Архитектура multi-LLM: как это работает изнутри

Окей, идея понятна — использовать разные модели для разных задач. Но как это реализовать на практике? Не будешь же вручную переключать ботов?

Конечно, нет. Для этого существует архитектура с маршрутизатором запросов. Звучит сложно, но на самом деле всё логично.

Представьте себе опытного руководителя колл-центра. К нему приходят звонки, и он за секунды решает: этот вопрос — на первую линию, этот — на техподдержку, а этот — сразу на руководителя отдела продаж. Он не делает работу сам — он распределяет её между теми, кто справится лучше всего.

AI-маршрутизатор работает точно так же. Он получает запрос от клиента, анализирует его за миллисекунды и отправляет к нужной модели.

Как работает маршрутизатор запросов

Клиент

Отправляет запрос

ROUTER

Классифицирует запрос

Выбирает модель

GPT Claude Gemini

AI-модели

Обрабатывают запрос

Маршрутизатор принимает решение за 50-100 мс — клиент не замечает задержки

На практике маршрутизатор — это либо простые правила (если вопрос про цену → GPT, если анализ документа → Claude), либо отдельная маленькая AI-модель, которая классифицирует запросы.

Вернёмся к логистической компании Аружан. После того как мы внедрили композитный подход, архитектура стала выглядеть так:

Тип запроса Модель Почему именно она
Общие вопросы, FAQ GPT-4o mini Быстро, дёшево, отлично справляется с типовыми вопросами
Статус груза GPT-4o Хорошо форматирует ответы, работает с данными из CRM
Анализ документов Claude 3.5 Длинный контекст, точность при работе с накладными и счетами
Жалобы и конфликты Claude 3.5 Меньше галлюцинаций, более «человечные» ответы при негативе
Вопросы по таможне Claude 3.5 Точность критична — нельзя придумывать правила и сроки
Анализ фото груза Gemini Pro Vision Лучшая мультимодальность, быстрое распознавание повреждений

Результат? Галлюцинации упали на 87%. Стоимость запроса снизилась на 34% — потому что простые вопросы теперь обрабатывает дешёвая модель, а дорогую мы включаем только когда это реально нужно.

А клиент из Шымкента больше не получает ложную информацию про груз в Алматы. Потому что вопросы про статус теперь уходят к модели, которая умеет честно говорить «не знаю, уточняю» вместо того, чтобы придумывать.

Практическое руководство: когда какую модель использовать

Теория — это хорошо. Но вы наверняка хотите конкретики: что именно отправлять в GPT, что в Claude, а что в Gemini?

За последний год мы внедрили композитный AI в двадцати с лишним компаниях Казахстана. От интернет-магазинов до банков. И вот что мы поняли про распределение задач:

GPT-4
Используйте для:
  • Генерация контента

    Письма, КП, описания товаров

  • Общение с клиентами

    Чат-боты, ответы на вопросы

  • Суммаризация

    Краткое изложение переписки

  • Творческие задачи

    Нейминг, слоганы, идеи

Claude
Используйте для:
  • Анализ документов

    Договоры, накладные, отчёты

  • Критичная точность

    Юридика, финансы, медицина

  • Работа с негативом

    Жалобы, претензии, конфликты

  • Длинный контекст

    Анализ всей истории клиента

Gemini
Используйте для:
  • Анализ изображений

    Фото товаров, скриншоты

  • Быстрые ответы

    Когда latency критична

  • Массовая обработка

    Много запросов, нужна экономия

  • Интеграция с Google

    Search, Workspace, Maps

Это не догма — ситуации бывают разные. Но как отправная точка — работает отлично.

Один важный нюанс: не пытайтесь сразу внедрить все три модели. Начните с двух — например, GPT для общих вопросов и Claude для критичных. Добавите третью, когда поймёте, что нужна мультимодальность или супер-низкая задержка.

Подробнее о том, как выбрать LLM для конкретных бизнес-задач, читайте в статье Как выбрать LLM для бизнеса: критерии качества, стоимости и латентности.

Экономика: почему композитный AI дешевле, чем кажется

«Погоди, — скажете вы. — Три провайдера вместо одного? Это же дороже!»

А вот и нет. И сейчас я покажу почему.

Типичная ошибка — считать, что все запросы одинаковые. Но на практике 70-80% обращений к бизнес-боту — это простые вопросы. «Работаете ли в субботу?», «Сколько стоит доставка?», «Где мой заказ?». Для этих вопросов GPT-4 Turbo — это как вызывать хирурга для измерения температуры. Дорого и бессмысленно.

Калькулятор: экономия на композитном AI

Исходные данные (типовая компания)
Запросов в месяц: 10 000
Средняя длина запроса: ~500 токенов (вход+выход)
Курс: 1 USD = 510 тенге
Только GPT-4o (все запросы)
Цена за 1K токенов: $0.005
10 000 запросов × 500 токенов: 5 млн токенов
Итого в месяц: $25 / ~12 750 тг
Композитный AI (smart routing)
70% простых → GPT-4o-mini ($0.00015): $0.53
20% средних → GPT-4o ($0.005): $5.00
10% сложных → Claude 3.5 ($0.003): $1.50
Итого в месяц: $7.03 / ~3 585 тг
Экономия: 72% или ~9 000 тенге в месяц

При 100 000 запросов — экономия уже ~90 000 тенге. При этом качество ответов НЕ снижается, потому что сложные вопросы по-прежнему обрабатывает мощная модель.

Видите магию? Экономия 72% — и это ещё консервативный расчёт. На практике, когда маршрутизатор хорошо обучен, доля простых запросов может достигать 80-85%.

Но экономия — это только половина истории. Вторая половина — надёжность.

Детальный разбор экономики AI-ботов — в статье Оптимизация стоимости AI-бота: токены, кэш и model routing.

Fallback-стратегии: что делать, когда AI падает

Это было в марте. Клиент — крупный интернет-магазин электроники из Алматы. Пятница, 10 утра, начало акции к 8 Марта. Трафик на сайте — в три раза выше обычного. Бот обрабатывает сотни запросов в минуту.

И тут OpenAI API... ложится. Не отвечает. Timeout.

У конкурентов, которые работали только на GPT, случился коллапс. Бот молчит, клиенты злятся, менеджеры не справляются с потоком, продажи падают.

У нашего клиента? Бот переключился на Claude за 200 миллисекунд. Клиенты даже не заметили. Продажи продолжились. А когда OpenAI через 40 минут восстановился — маршрутизатор спокойно перевёл часть нагрузки обратно.

Как работает fallback в композитном AI

Основная модель

GPT-4o отвечает за 80% запросов

Работает
Первый fallback

Claude 3.5 Sonnet при сбое GPT

Горячий резерв
Второй fallback

Gemini Pro или локальный LLM

Крайний случай

Важно: переключение происходит автоматически за 100-300 мс. Клиент получает ответ — возможно, чуть другим тоном, но без ошибки «сервис недоступен».

За 2024 год OpenAI API испытывал проблемы в среднем 2-3 раза в месяц. Иногда на 5 минут, иногда на несколько часов. Anthropic — реже, но тоже бывает. Google — примерно на уровне OpenAI.

Когда у вас композитный AI, вы не зависите от одного провайдера. Упал один — работает другой. Это как иметь запасной генератор в больнице: надеешься, что не понадобится, но когда понадобился — спас жизни.

Подробнее о построении отказоустойчивых AI-систем — в статье Катастрофоустойчивость для AI-ботов: что делать, когда LLM недоступна.

Хотите внедрить композитный AI в своём бизнесе?

Мы проанализируем ваши сценарии использования, подберём оптимальную комбинацию моделей и рассчитаем экономию. Первая консультация — бесплатно.

Получить консультацию

Пошаговый план: как внедрить композитный AI за 3 недели

Хватит теории. Вот конкретный план, как перейти от монолитного бота к композитной архитектуре. Три недели — это реалистичный срок для компании, у которой уже есть работающий бот.

1
неделя
Анализ и классификация запросов
  • Выгрузите логи диалогов за последний месяц
  • Классифицируйте: простые (FAQ), средние (бизнес-логика), сложные (анализ, конфликты)
  • Определите процентное соотношение категорий
  • Выберите две модели для старта (например, GPT-4o-mini + Claude)
2
неделя
Настройка маршрутизатора и интеграций
  • Подключите второго AI-провайдера (API-ключи, лимиты)
  • Настройте правила маршрутизации (по ключевым словам или intent-классификатору)
  • Настройте fallback: если основная модель не отвечает → запасная
  • Добавьте логирование: какой запрос → какая модель → результат
3
неделя
Тестирование и оптимизация
  • Запустите A/B-тест: часть трафика на старую архитектуру, часть — на новую
  • Сравните метрики: качество ответов, стоимость, время ответа
  • Настройте пороги уверенности маршрутизатора
  • Полный переход на композитную архитектуру

Три недели — это для компании с техническим ресурсом. Если у вас нет штатного разработчика, можно использовать готовые платформы с поддержкой multi-LLM «из коробки» — тогда срок сократится до 1-2 недель.

Главное — не пытаться сразу сделать идеально. Начните с простых правил («если в запросе слово жалоба → Claude»), посмотрите на результаты, итерируйте.

Кейс: как сеть клиник сэкономила 340 000 тенге в месяц

Вернёмся к практике. Сеть частных клиник в Казахстане — 5 филиалов, Алматы и Астана. Бот обрабатывает запись к врачам, ответы на вопросы о процедурах, напоминания.

Изначально всё работало на GPT-4 Turbo. Качественно, но дорого — около 480 000 тенге в месяц только на токены. Плюс регулярные жалобы: бот иногда «назначал» несуществующих врачей или путал цены.

Что мы сделали:

БЫЛО (только GPT-4)
  • Все запросы → GPT-4 Turbo
  • Стоимость: 480 000 тг/мес
  • Галлюцинации: ~8% запросов
  • Uptime: 97.2% (сбои OpenAI)
  • Время ответа: 2.1 сек
СТАЛО (композитный AI)
  • FAQ → GPT-4o-mini (75%)
  • Запись → GPT-4o (15%)
  • Медицинские вопросы → Claude (10%)
  • Стоимость: 140 000 тг/мес
  • Галлюцинации: 1.2%
  • Uptime: 99.7%
-71%

Снижение затрат

-85%

Меньше галлюцинаций

+2.5%

Рост uptime

340K

Экономия тенге/мес

Ключевое изменение — мы отправили медицинские вопросы (симптомы, показания, противопоказания) в Claude. Эта модель гораздо осторожнее с утверждениями и чаще говорит «проконсультируйтесь с врачом» вместо того, чтобы выдумывать диагнозы.

А простые вопросы типа «работает ли педиатр в субботу» ушли в GPT-4o-mini — и это дало основную экономию.

Больше историй внедрения — в разделе Кейсы внедрения AI-ботов.

Бонус: локальные модели как часть композита

Для компаний в Казахстане есть ещё одна причина задуматься о композитном AI — это вопрос данных.

Некоторые данные нельзя или не хочется отправлять в облако. Персональные данные клиентов. Финансовая информация. Коммерческие тайны. Да и просто — зависимость от американских/европейских сервисов в текущей геополитике вызывает вопросы.

Композитный подход позволяет использовать локальные LLM (Llama, Mistral, YandexGPT, GigaChat) для чувствительных данных, а облачные модели — для всего остального.

Гибридная архитектура: облако + локально

В облако (GPT, Claude, Gemini)
  • Общие вопросы о продуктах
  • Генерация маркетингового контента
  • Обезличенная аналитика
  • Творческие задачи
Локально (Llama, YandexGPT)
  • Работа с персональными данными
  • Финансовые документы
  • Внутренняя переписка
  • Данные для госзаказчиков

Для казахстанских компаний, работающих с госзаказами, это особенно актуально. Данные остаются в периметре — а качество ответов не страдает, потому что для обычных задач всё ещё используются мощные облачные модели.

Подробнее о локальных LLM — в статье Локальные LLM для CRM: Llama, Mistral и приватность данных. А про интеграцию с российскими моделями — в материале Интеграция CRM с Yandex GPT и GigaChat.

Заключение: будущее за композитным AI

Давайте подведём итог. Композитный AI — это не модное слово и не усложнение ради усложнения. Это прагматичный ответ на простой факт: идеальной AI-модели не существует.

GPT лучше пишет. Claude точнее анализирует. Gemini быстрее отвечает. Локальные модели сохраняют приватность. Умные компании используют всё это вместе — и получают лучшее от каждого мира.

Три главных преимущества композитного подхода:

  • Экономия 50-70% — простые задачи уходят в дешёвые модели
  • Выше качество — каждая модель делает то, в чём сильна
  • Надёжность — fallback защищает от сбоев провайдеров

История Аружан из начала статьи? Через два месяца после перехода на композитный AI её бот перестал выдумывать статусы грузов. Потому что вопросы про таможню теперь идут в Claude, который предпочитает сказать «уточняю» вместо того, чтобы фантазировать.

А стоимость? Упала на 41%. При том, что качество выросло.

Это не магия. Это архитектура.

Готовы перейти на композитный AI?

Мы проанализируем ваши текущие сценарии, подберём оптимальную комбинацию моделей и поможем с внедрением. Первичный аудит — бесплатно.

Заказать аудит AI-архитектуры

Читайте также

Обзор AI-моделей 2025: ChatGPT, Claude, Gemini, Llama

Детальное сравнение всех популярных LLM для бизнеса

Оптимизация стоимости AI-бота: токены, кэш и routing

Как снизить расходы на AI в 2-3 раза без потери качества

Катастрофоустойчивость AI-ботов

Что делать, когда LLM недоступна или работает некорректно

Agentic AI: когда можно доверить боту закрывать сделки

Автономные AI-агенты для бизнеса — возможности и ограничения