Клиент прислал фото детали в WhatsApp и спрашивает: «Есть такая? Сколько стоит?». Менеджер 20 минут листает каталог из 10 000 позиций, пытаясь понять, что это за запчасть. Находит три похожих варианта, уточняет у клиента, клиент уже ушёл к конкурентам, которые ответили за минуту.
Другая ситуация: клиент присылает скриншот с ошибкой. Поддержка пересылает его разработчикам. Те просят прислать текст ошибки. Клиент фотографирует экран телефоном. Качество ужасное. Цикл повторяется. Проблема решается три дня вместо трёх часов.
Мультимодальный AI переворачивает эту ситуацию с ног на голову. Современные модели научились «видеть» — они понимают не только текст, но и изображения: фото товаров, скриншоты, документы, даже мятые визитки из кармана. Разберёмся, как это применить в продажах и поддержке.
Мультимодальность — когда AI понимает не только текст, но и картинки, звук, видео. Нам для CRM-задач важнее всего vision — работа с изображениями.
Современные LLM (GPT-4V, Claude 3, Gemini) обучены «видеть» изображения. Вы отправляете картинку, модель анализирует её и может описать содержимое, найти текст, определить объекты, ответить на вопросы по изображению.
Технически это работает так: изображение преобразуется в эмбеддинги (числовые представления), которые модель обрабатывает вместе с текстовым запросом. Результат — ответ, учитывающий как текстовый контекст, так и визуальную информацию.
| Модель | Качество OCR | Понимание контекста | Русский язык | Стоимость |
|---|---|---|---|---|
| GPT-4V | Отлично | Отлично | Хорошо | $$$ |
| Claude 3 Opus | Отлично | Отлично | Отлично | $$$ |
| Claude 3.5 Sonnet | Отлично | Отлично | Отлично | $$ |
| Gemini Pro Vision | Хорошо | Хорошо | Средне | $$ |
| LLaVA (open source) | Средне | Средне | Плохо | $ |
Хватит теории — давайте посмотрим, где это реально работает и экономит деньги.
Клиент присылает фотографию: запчасть, мебель, одежду, стройматериал. AI анализирует изображение, определяет характеристики (размер, цвет, модель, артикул на этикетке) и ищет в каталоге. Вместо 20 минут поиска — 10 секунд.
Входящее: Фото сломанной детали с подписью «Сколько стоит?»
AI определяет: Тормозная колодка, вероятно передняя, похожа на модели для Toyota Camry 2018-2022
Ответ клиенту: «Похоже на тормозную колодку для Toyota Camry. Если это передняя — у нас есть TRW (13 200 ₸) и оригинал (26 400 ₸). Уточните марку и год авто для точного подбора.»
Менеджер сфотографировал визитку на выставке. AI распознаёт текст, извлекает имя, должность, компанию, телефон, email — и автоматически создаёт контакт в CRM. Никакого ручного ввода.
Клиент присылает скриншот с ошибкой, непонятным интерфейсом, сообщением. AI читает текст на скриншоте, понимает контекст, маршрутизирует обращение в нужный отдел или сразу предлагает решение.
В недвижимости, автобизнесе, страховании — клиент присылает фото объекта. AI анализирует состояние, определяет характеристики, даёт предварительную оценку или рекомендует следующий шаг.
Входящее: 4 фото автомобиля с разных ракурсов после ДТП
AI анализирует: Повреждены передний бампер (деформация 30%), левое крыло (вмятина ~15 см), фара левая (разбита)
Результат: Предварительная оценка ремонта:440 000-660 000 ₸. Рекомендация: осмотр на СТО для уточнения скрытых повреждений.
Менеджер сфотографировал стенд конкурента, презентацию партнёра, расписание конференции. AI извлекает информацию, структурирует, добавляет в CRM как заметку к событию или контакту.
Покажем, как настроить распознавание товаров по фото, автоматическую обработку документов и другие сценарии для вашего бизнеса.
Обсудить внедрениеДокументы — вечная головная боль. Сканы, фотки, PDF-ки — и кто-то должен всё это руками вбивать в систему. Vision AI берёт эту рутину на себя.
Клиент прислал скан счёта от конкурента или свою накладную. AI извлекает: поставщика, получателя, список товаров, количество, цены, итоговую сумму. Данные можно автоматически загрузить в CRM для анализа или создания встречного предложения.
AI может «прочитать» договор и выделить ключевые условия: сроки, суммы, штрафы, особые условия. Не заменяет юриста, но помогает быстро оценить документ и понять, на что обратить внимание.
Менеджер сделал записи на встрече в блокноте. Сфотографировал страницу. AI распознаёт рукописный текст (с переменным успехом — зависит от почерка), структурирует в задачи и заметки.
| Параметр | Классический OCR | AI Vision OCR |
|---|---|---|
| Качество на идеальных сканах | Отлично | Отлично |
| Фото с телефона | Плохо | Хорошо |
| Рукописный текст | Не работает | Средне-хорошо |
| Понимание контекста | Нет | Да |
| Извлечение структуры | Требует настройки | Из коробки |
| Стоимость | Низкая | Средняя |
Одно из самых мощных применений vision AI в e-commerce и оптовых продажах — поиск товара по фотографии.
Техническая схема: фото от клиента → vision-модель описывает товар (характеристики, категория) → поиск по товарной базе по описанию или визуальным эмбеддингам → топ-N похожих товаров → ответ клиенту.
Альтернативный подход: все товары в каталоге заранее проиндексированы (созданы визуальные эмбеддинги). Фото от клиента преобразуется в эмбеддинг, и ищутся ближайшие соседи. Быстрее, но требует предварительной подготовки.
Точность визуального поиска зависит от качества фото, уникальности товара, размера каталога. На узких доменах (конкретная категория товаров) точность может достигать 90%+. На широких каталогах — 60-70%. Рекомендация: возвращать топ-3-5 вариантов и давать менеджеру/клиенту выбрать.
Теперь к практике — как прикрутить это к вашей CRM.
Основные провайдеры предоставляют API для работы с изображениями. Запрос включает: системный промпт, изображение (base64 или URL), пользовательский вопрос. Ответ — текст с анализом.
Перед отправкой в AI изображение стоит подготовить:
| Модель | Стоимость за изображение* | Примечание |
|---|---|---|
| GPT-4V | ~5-15 ₸ | Зависит от размера |
| Claude 3.5 Sonnet | ~2,5-10 ₸ | Зависит от размера |
| Gemini Pro | ~1-5 ₸ | Бесплатный tier |
* Примерные цены, актуальные на конец 2025. Проверяйте текущие тарифы у провайдеров.
Если один и тот же товар фотографируют часто — кэшируйте результаты. Используйте перцептивные хеши изображений для определения дубликатов. Это снижает стоимость и ускоряет ответы.
Клиенты присылают фото — а там иногда паспорта, договоры, лица людей. Один неосторожный шаг, и привет, утечка персональных данных.
Перед отправкой в AI можно автоматически маскировать чувствительные области: номера телефонов, email, лица людей. Используйте локальную предобработку, чтобы данные не уходили за периметр.
Определите политику хранения: как долго хранить изображения, кто имеет доступ, когда удалять. Логируйте, какие изображения отправлялись в AI, для аудита и расследований.
Проблема: Клиенты присылают фото сломанных деталей. Менеджеры тратят 15-20 минут на идентификацию. 30% клиентов уходят, не дождавшись ответа.
Решение: Vision AI анализирует фото, определяет тип детали, марку/модель авто (если видно), ищет в каталоге из 50 000 позиций.
Результат:
Проблема: Оценка ущерба по ДТП требует выезда эксперта. Это дорого и долго. Мелкие случаи экономически невыгодно обрабатывать.
Решение: Клиент загружает фото через мобильное приложение. AI определяет повреждения, оценивает примерную стоимость ремонта, принимает решение о выплате или необходимости осмотра.
Результат:
Проблема: Клиенты присылают технические задания в PDF. Менеджеру нужно вычитать 20-страничный документ, чтобы понять, что предложить.
Решение: AI «читает» PDF, выделяет ключевые требования, сопоставляет с каталогом продуктов, формирует черновик КП.
Результат:
То, что мы видим сейчас — только начало. Через пару лет возможности вырастут в разы.
Уже сейчас модели могут анализировать видео. Скоро это станет практичным для бизнеса: видео-демонстрации продукта, записи встреч с визуальным контентом, мониторинг процессов.
Покупатель наводит камеру на товар в магазине — видит дополненную информацию: отзывы, альтернативы, применение. Продавец смотрит на склад через AR — видит, что где лежит и сколько осталось.
AI-агенты, которые не только анализируют изображения, но и действуют на основе увиденного: автоматически создают заказы, обновляют каталог, генерируют отчёты по визуальным данным.
1. Начните с одного сценария. Не пытайтесь сразу автоматизировать всё. Выберите самый болезненный процесс (поиск товаров, обработка документов), внедрите там, измерьте эффект, потом расширяйте.
2. Готовьте fallback. AI ошибается. Предусмотрите сценарий, когда модель не уверена: «Не могу точно определить товар. Вот 3 похожих варианта, уточните у клиента». Это лучше, чем неправильный ответ.
3. Собирайте обратную связь. Когда менеджер выбирает из предложенных вариантов не первый — это сигнал. Логируйте такие случаи, анализируйте, улучшайте промпты и процессы.
Vision AI — уже не экзотика для стартапов, а рабочий инструмент. Он делает за секунды то, на что менеджер тратил полчаса: находит товар по мятой фотке, вытаскивает данные из скана накладной, разбирается в скриншоте с ошибкой.
Ключевые выводы:
Те, кто освоят это первыми, окажутся на шаг впереди: пока конкуренты листают каталоги — вы уже отправили клиенту цену.
Покажем демо поиска товаров по фото, обработки документов и других сценариев на ваших данных. Бесплатная демонстрация — 30 минут.
Записаться на демо