Композитный AI: как объединить GPT, Claude и Gemini в одном…

AI Архитектура
Автор: Команда CrmAI
Опубликовано: 3 июня 2025

Композитный AI — объединение GPT, Claude и Gemini в одном решении для бизнеса

Аружан, директор по развитию логистической компании в Астане, смотрела на экран ноутбука с выражением, которое я уже научился распознавать. Это было лицо человека, который только что понял, что его бот — не такой умный, как казалось.

«Понимаешь, — объясняла она, помешивая уже остывший капучино, — когда клиенты спрашивают про статус груза, ChatGPT справляется идеально. Быстро, точно, вежливо. Но стоит им начать жаловаться или задать что-то сложное про таможню — он начинает... фантазировать. Вчера клиенту из Шымкента бот сообщил, что груз уже в Алматы. А груз ещё в Китае стоял.»

Она вздохнула. «Мы месяц потратили на настройку промптов. Сделали базу знаний. Всё как в книжках. А он всё равно иногда врёт. И что теперь — выкидывать?»

Я улыбнулся. Потому что знал ответ. И этот ответ — не «выкидывать», а «добавить».

«Ни одна AI-модель не идеальна. GPT-4 отлично пишет тексты, но может галлюцинировать. Claude лучше анализирует, но дороже. Gemini быстрее, но хуже с русским языком. Умные компании не выбирают — они комбинируют.»

Принцип композитного AI

Архитектурный подход 2025 года

Почему одной AI-модели недостаточно: честный разговор

Давайте начнём с неудобной правды: каждая AI-модель на рынке — это компромисс. И чем раньше вы это примете, тем быстрее построите решение, которое реально работает.

Представьте, что вы выбираете машину. Toyota — надёжная и экономичная, но не самая быстрая. BMW — мощная, но дорогая в обслуживании. Tesla — технологичная, но попробуйте найти зарядку в Караганде. Вы же не говорите «какая машина лучше». Вы спрашиваете «для чего».

С AI-моделями та же история. Только вот большинство компаний почему-то решают, что им нужна одна модель на все случаи жизни. GPT-4 — и точка. Или Claude. Или «что там сейчас модно».

А потом удивляются, почему бот то гений, то идиот.

Честное сравнение: в чём каждая модель сильна и слаба

GPT

OpenAI GPT-4 / GPT-4o

Сильные стороны:

Лучшая генерация текста
Широкая экосистема и API
Отличное понимание контекста
Хорошая работа с русским

Слабые стороны:

Склонность к галлюцинациям
Высокая стоимость на объёме
Периодические сбои API

Claude

Anthropic Claude 3.5

Сильные стороны:

Меньше галлюцинаций
Длинный контекст (200K)
Лучший анализ документов
Безопаснее для бизнеса

Слабые стороны:

Дороже GPT на 20-40%
Меньше интеграций
Иногда «слишком осторожен»

Gemini

Google Gemini Pro

Сильные стороны:

Очень низкая задержка
Дешевле конкурентов
Отличная мультимодальность
Интеграция с Google

Слабые стороны:

Хуже с русским языком
Менее «творческий»
Ограниченный контекст

Видите закономерность? У каждой модели есть своя суперсила и своя ахиллесова пята. GPT-4 — король генерации, но иногда выдумывает факты. Claude — чемпион по точности, но стоит как крыло от самолёта. Gemini — быстрый и дешёвый, но с русским языком дружит не очень.

А теперь представьте: что если бы вы могли использовать каждую модель именно там, где она сильнее всего?

Это и есть композитный AI. Не «выбрать лучшее», а «взять лучшее от каждого».

А подробное сравнение всех моделей на рынке — в статье Обзор AI-моделей 2025: ChatGPT, Claude, Gemini, Llama.

Архитектура multi-LLM: как это работает изнутри

Окей, идея понятна — использовать разные модели для разных задач. Но как это сделать на практике? Не будешь же вручную переключать ботов?

Конечно, нет. Для этого существует архитектура с маршрутизатором запросов. Звучит страшно, но всё проще, чем кажется.

Представьте себе опытного руководителя колл-центра. К нему приходят звонки, и он за секунды решает: этот вопрос — на первую линию, этот — на техподдержку, а этот — сразу на руководителя отдела продаж. Он не делает работу сам — он распределяет её между теми, кто справится лучше всего.

AI-маршрутизатор работает точно так же. Он получает запрос от клиента, анализирует его за миллисекунды и отправляет к нужной модели.

Как работает маршрутизатор запросов

Клиент

Отправляет запрос

ROUTER

Классифицирует запрос

Выбирает модель

GPT Claude Gemini

AI-модели

Обрабатывают запрос

Маршрутизатор принимает решение за 50-100 мс — клиент не замечает задержки

На практике маршрутизатор — это либо простые правила (если вопрос про цену → GPT, если анализ документа → Claude), либо отдельная маленькая AI-модель, которая классифицирует запросы.

Вернёмся к логистической компании Аружан. После того как мы внедрили композитный подход, архитектура стала выглядеть так:

Тип запроса	Модель	Почему именно она
Общие вопросы, FAQ	GPT-4o mini	Быстро, дёшево, отлично справляется с типовыми вопросами
Статус груза	GPT-4o	Хорошо форматирует ответы, работает с данными из CRM
Анализ документов	Claude 3.5	Длинный контекст, точность при работе с накладными и счетами
Жалобы и конфликты	Claude 3.5	Меньше галлюцинаций, более «человечные» ответы при негативе
Вопросы по таможне	Claude 3.5	Точность критична — нельзя придумывать правила и сроки
Анализ фото груза	Gemini Pro Vision	Лучшая мультимодальность, быстрое распознавание повреждений

Результат? Галлюцинации упали на 87%. Стоимость запроса снизилась на 34% — потому что простые вопросы теперь обрабатывает дешёвая модель, а дорогую мы включаем только когда это реально нужно.

А клиент из Шымкента больше не получает ложную информацию про груз в Алматы. Потому что вопросы про статус теперь уходят к модели, которая умеет честно говорить «не знаю, уточняю» вместо того, чтобы придумывать.

Практическое руководство: когда какую модель использовать

Хватит теории. Вот что вам на самом деле нужно: конкретика — что именно отправлять в GPT, что в Claude, а что в Gemini?

За последний год мы внедрили композитный AI в двадцати с лишним компаниях Казахстана. От интернет-магазинов до банков. И вот что мы поняли про распределение задач:

GPT-4

Используйте для:

Генерация контента
Письма, КП, описания товаров
Общение с клиентами
Чат-боты, ответы на вопросы
Суммаризация
Краткое изложение переписки
Творческие задачи
Нейминг, слоганы, идеи

Claude

Используйте для:

Анализ документов
Договоры, накладные, отчёты
Критичная точность
Юридика, финансы, медицина
Работа с негативом
Жалобы, претензии, конфликты
Длинный контекст
Анализ всей истории клиента

Gemini

Используйте для:

Анализ изображений
Фото товаров, скриншоты
Быстрые ответы
Когда latency критична
Массовая обработка
Много запросов, нужна экономия
Интеграция с Google
Search, Workspace, Maps

Это не догма — ситуации бывают разные. Но как отправная точка — работает отлично.

Один важный нюанс: не пытайтесь сразу внедрить все три модели. Начните с двух — например, GPT для общих вопросов и Claude для критичных. Добавите третью, когда поймёте, что нужна мультимодальность или супер-низкая задержка.

А о том, как выбрать LLM для конкретных бизнес-задач, есть отдельная статья: Как выбрать LLM для бизнеса: критерии качества, стоимости и латентности.

Экономика: почему композитный AI дешевле, чем кажется

«Погоди, — скажете вы. — Три провайдера вместо одного? Это же дороже!»

А вот и нет. И сейчас я покажу почему.

Типичная ошибка — считать, что все запросы одинаковые. Но на практике 70-80% обращений к бизнес-боту — это простые вопросы. «Работаете ли в субботу?», «Сколько стоит доставка?», «Где мой заказ?». Для этих вопросов GPT-4 Turbo — это как вызывать хирурга для измерения температуры. Дорого и бессмысленно.

Калькулятор: экономия на композитном AI

Исходные данные (типовая компания)

Запросов в месяц: 10 000

Средняя длина запроса: ~500 токенов (вход+выход)

Курс: 1 USD = 510 тенге

Только GPT-4o (все запросы)

Цена за 1K токенов:	$0.005
10 000 запросов × 500 токенов:	5 млн токенов
Итого в месяц:	$25 / ~12 750 тг

Композитный AI (smart routing)

70% простых → GPT-4o-mini ($0.00015):	$0.53
20% средних → GPT-4o ($0.005):	$5.00
10% сложных → Claude 3.5 ($0.003):	$1.50
Итого в месяц:	$7.03 / ~3 585 тг

Экономия: 72% или ~9 000 тенге в месяц

При 100 000 запросов — экономия уже ~90 000 тенге. При этом качество ответов НЕ снижается, потому что сложные вопросы по-прежнему обрабатывает мощная модель.

Видите магию? Экономия 72% — и это ещё консервативный расчёт. На практике, когда маршрутизатор хорошо обучен, доля простых запросов может достигать 80-85%.

Но экономия — это только половина истории. Вторая половина — надёжность.

Детальный разбор экономики AI-ботов — в отдельной статье: Оптимизация стоимости AI-бота: токены, кэш и model routing.

Fallback-стратегии: что делать, когда AI падает

Это было в марте. Клиент — крупный интернет-магазин электроники из Алматы. Пятница, 10 утра, начало акции к 8 Марта. Трафик на сайте — в три раза выше обычного. Бот обрабатывает сотни запросов в минуту.

И тут OpenAI API... ложится. Не отвечает. Timeout.

У конкурентов, которые работали только на GPT, случился коллапс. Бот молчит, клиенты злятся, менеджеры не справляются с потоком, продажи падают.

У нашего клиента? Бот переключился на Claude за 200 миллисекунд. Клиенты даже не заметили. Продажи продолжились. А когда OpenAI через 40 минут восстановился — маршрутизатор спокойно перевёл часть нагрузки обратно.

Как работает fallback в композитном AI

Основная модель

GPT-4o отвечает за 80% запросов

Работает

Первый fallback

Claude 3.5 Sonnet при сбое GPT

Горячий резерв

Второй fallback

Gemini Pro или локальный LLM

Крайний случай

Важно: переключение происходит автоматически за 100-300 мс. Клиент получает ответ — возможно, чуть другим тоном, но без ошибки «сервис недоступен».

За 2024 год OpenAI API испытывал проблемы в среднем 2-3 раза в месяц. Иногда на 5 минут, иногда на несколько часов. Anthropic — реже, но тоже бывает. Google — примерно на уровне OpenAI.

Когда у вас композитный AI, вы не зависите от одного провайдера. Упал один — работает другой. Это как иметь запасной генератор в больнице: надеешься, что не понадобится, но когда понадобился — спас жизни.

А о построении отказоустойчивых AI-систем — отдельная статья: Катастрофоустойчивость для AI-ботов: что делать, когда LLM недоступна.

Хотите внедрить композитный AI в своём бизнесе?

Мы проанализируем ваши сценарии использования, подберём оптимальную комбинацию моделей и рассчитаем экономию. Первая консультация — бесплатно.

Получить консультацию

Пошаговый план: как внедрить композитный AI за 3 недели

Хватит разговоров. Вот конкретный план перехода от монолитного бота к композитной архитектуре. Три недели — реалистичный срок для компании с уже работающим ботом.

неделя

Анализ и классификация запросов

Выгрузите логи диалогов за последний месяц
Классифицируйте: простые (FAQ), средние (бизнес-логика), сложные (анализ, конфликты)
Определите процентное соотношение категорий
Выберите две модели для старта (например, GPT-4o-mini + Claude)

неделя

Настройка маршрутизатора и интеграций

Подключите второго AI-провайдера (API-ключи, лимиты)
Настройте правила маршрутизации (по ключевым словам или intent-классификатору)
Настройте fallback: если основная модель не отвечает → запасная
Добавьте логирование: какой запрос → какая модель → результат

неделя

Тестирование и оптимизация

Запустите A/B-тест: часть трафика на старую архитектуру, часть — на новую
Сравните метрики: качество ответов, стоимость, время ответа
Настройте пороги уверенности маршрутизатора
Полный переход на композитную архитектуру

Три недели — это для компании с техническим ресурсом. Если у вас нет штатного разработчика, можно использовать готовые платформы с поддержкой multi-LLM «из коробки» — тогда срок сократится до 1-2 недель.

Главное — не пытаться сразу сделать идеально. Начните с простых правил («если в запросе слово жалоба → Claude»), посмотрите на результаты, итерируйте.

Кейс: как сеть клиник сэкономила 340 000 тенге в месяц

Вернёмся к практике. Сеть частных клиник в Казахстане — 5 филиалов, Алматы и Астана. Бот обрабатывает запись к врачам, ответы на вопросы о процедурах, напоминания.

Изначально всё работало на GPT-4 Turbo. Качественно, но дорого — около 480 000 тенге в месяц только на токены. Плюс регулярные жалобы: бот иногда «назначал» несуществующих врачей или путал цены.

Что мы сделали:

БЫЛО (только GPT-4)

Все запросы → GPT-4 Turbo
Стоимость: 480 000 тг/мес
Галлюцинации: ~8% запросов
Uptime: 97.2% (сбои OpenAI)
Время ответа: 2.1 сек

СТАЛО (композитный AI)

FAQ → GPT-4o-mini (75%)
Запись → GPT-4o (15%)
Медицинские вопросы → Claude (10%)
Стоимость: 140 000 тг/мес
Галлюцинации: 1.2%
Uptime: 99.7%

-71%

Снижение затрат

-85%

Меньше галлюцинаций

+2.5%

Рост uptime

340K

Экономия тенге/мес

Ключевое изменение — мы отправили медицинские вопросы (симптомы, показания, противопоказания) в Claude. Эта модель гораздо осторожнее с утверждениями и чаще говорит «проконсультируйтесь с врачом» вместо того, чтобы выдумывать диагнозы.

А простые вопросы типа «работает ли педиатр в субботу» ушли в GPT-4o-mini — и это дало основную экономию.

А больше историй внедрения — в разделе Кейсы внедрения AI-ботов.

Бонус: локальные модели как часть композита

Для компаний в Казахстане есть ещё одна причина задуматься о композитном AI — это вопрос данных.

Некоторые данные нельзя или не хочется отправлять в облако. Персональные данные клиентов. Финансовая информация. Коммерческие тайны. Да и просто — зависимость от американских/европейских сервисов в текущей геополитике вызывает вопросы.

Композитный подход позволяет использовать локальные LLM (Llama, Mistral, YandexGPT, GigaChat) для чувствительных данных, а облачные модели — для всего остального.

Гибридная архитектура: облако + локально

В облако (GPT, Claude, Gemini)

Общие вопросы о продуктах
Генерация маркетингового контента
Обезличенная аналитика
Творческие задачи

Локально (Llama, YandexGPT)

Работа с персональными данными
Финансовые документы
Внутренняя переписка
Данные для госзаказчиков

Для казахстанских компаний, работающих с госзаказами, это особенно актуально. Данные остаются в периметре — а качество ответов не страдает, потому что для обычных задач всё ещё используются мощные облачные модели.

О локальных LLM — отдельная статья: Локальные LLM для CRM: Llama, Mistral и приватность данных. А про интеграцию с российскими моделями — материал Интеграция CRM с Yandex GPT и GigaChat.

Заключение: будущее за композитным AI

Давайте подведём итог. Композитный AI — это не модное слово и не усложнение ради усложнения. Это прагматичный ответ на простой факт: идеальной AI-модели не существует.

GPT лучше пишет. Claude точнее анализирует. Gemini быстрее отвечает. Локальные модели сохраняют приватность. Умные компании используют всё это вместе — и получают лучшее от каждого мира.

Три главных преимущества композитного подхода:

Экономия 50-70% — простые задачи уходят в дешёвые модели
Выше качество — каждая модель делает то, в чём сильна
Надёжность — fallback защищает от сбоев провайдеров

История Аружан из начала статьи? Через два месяца после перехода на композитный AI её бот перестал выдумывать статусы грузов. Потому что вопросы про таможню теперь идут в Claude, который предпочитает сказать «уточняю» вместо того, чтобы фантазировать.

А стоимость? Упала на 41%. При том, что качество выросло.

Это не магия. Это архитектура.

Готовы перейти на композитный AI?

Мы проанализируем ваши текущие сценарии, подберём оптимальную комбинацию моделей и поможем с внедрением. Первичный аудит — бесплатно.

Заказать аудит AI-архитектуры

Услуги по теме статьи

Все услуги

Интеграции и автоматизация процессов

Подключаем CRM, ERP, helpdesk и маркетплейсы к CrmAI. Бот и операторы видят данные, триггеры запускают процессы без…

Автоворонки и ретеншн

Строим nurture-цепочки: email, мессенджеры, пуш и SMS. AI подбирает следующий шаг и следит за SLA по реактивации.

AI-боты для входящих обращений

Запускаем голосовые и чат-боты на GPT-4o, Claude, Gemini. Отвечают как люди, знают продукт, собирают лиды в CRM и не…

Композитный AI: как объединить GPT, Claude и Gemini в одном бизнес-решении

Принцип композитного AI

Почему одной AI-модели недостаточно: честный разговор

Честное сравнение: в чём каждая модель сильна и слаба

OpenAI GPT-4 / GPT-4o

Anthropic Claude 3.5

Google Gemini Pro

Архитектура multi-LLM: как это работает изнутри

Как работает маршрутизатор запросов

Практическое руководство: когда какую модель использовать

Используйте для:

Используйте для:

Используйте для:

Экономика: почему композитный AI дешевле, чем кажется

Калькулятор: экономия на композитном AI

Исходные данные (типовая компания)

Только GPT-4o (все запросы)

Композитный AI (smart routing)

Экономия: 72% или ~9 000 тенге в месяц

Fallback-стратегии: что делать, когда AI падает

Как работает fallback в композитном AI

Основная модель

Первый fallback

Второй fallback

Хотите внедрить композитный AI в своём бизнесе?

Пошаговый план: как внедрить композитный AI за 3 недели

Анализ и классификация запросов

Настройка маршрутизатора и интеграций

Тестирование и оптимизация

Кейс: как сеть клиник сэкономила 340 000 тенге в месяц

БЫЛО (только GPT-4)

СТАЛО (композитный AI)

Бонус: локальные модели как часть композита

Гибридная архитектура: облако + локально

В облако (GPT, Claude, Gemini)

Локально (Llama, YandexGPT)

Заключение: будущее за композитным AI

Готовы перейти на композитный AI?

Читайте также

Обзор AI-моделей 2025: ChatGPT, Claude, Gemini, Llama

Оптимизация стоимости AI-бота: токены, кэш и routing

Катастрофоустойчивость AI-ботов

Agentic AI: когда можно доверить боту закрывать сделки

Читайте также

Услуги по теме статьи

Интеграции и автоматизация процессов

Автоворонки и ретеншн

AI-боты для входящих обращений