«Мы хотим бота, который знает всё о нашей компании». Каждый второй клиент приходит с этим. И тут же встаёт вопрос: как именно засунуть корпоративные знания в AI? Закинуть документы? Переобучить модель? Или хватит толкового промпта?
Рынок за последние пару лет прошёл несколько стадий: сначала все ломанулись fine-tuning'ить модели. Быстро выяснилось — дорого и геморройно. Появился RAG, и все выдохнули: «Ну наконец-то серебряная пуля!». Не тут-то было — RAG тоже не панацея. А есть задачи, которые закрываются простым промптом без всякой инфраструктуры.
Здесь разложим по полочкам три подхода: fine-tuning, RAG и промпт-инжиниринг. Когда какой использовать, сколько стоит и где можно вляпаться.
«Выбор между fine-tuning и RAG — это не технический вопрос. Это вопрос бизнес-задачи: что именно должен уметь бот, как часто меняются данные и какой бюджет вы готовы выделить».
Для начала — терминология. «Обучить бота» может означать три совершенно разные вещи.
Самый простой подход. Вы не меняете модель, а даёте ей подробную инструкцию — системный промпт. «Ты — консультант компании X. Вот наши продукты: A, B, C. Вот цены. Вот правила общения с клиентами».
Модель не «учится» в прямом смысле — она просто следует инструкциям, которые вы ей дали. Это как дать новому сотруднику методичку перед первым рабочим днём.
RAG — это «бот с базой знаний». Когда приходит вопрос, система сначала ищет релевантную информацию в вашей документации, а потом передаёт найденные фрагменты модели. Модель генерирует ответ на основе этих фрагментов.
Это как сотрудник с доступом к внутренней Wiki: он не помнит всё наизусть, но умеет быстро найти нужную информацию.
Fine-tuning — это реальное изменение весов модели на ваших данных. Вы берёте базовую модель (GPT, LLaMA, Mistral) и дообучаете её на примерах: «вопрос — правильный ответ». После этого модель «помнит» ваши данные без необходимости их каждый раз подгружать.
Это как опытный сотрудник, который проработал в компании 5 лет и знает всё наизусть.
Инструкции в системном промпте
Поиск + генерация
Дообучение модели
Промпт-инжиниринг недооценивают. Люди сразу лезут в RAG или fine-tuning, хотя 60-70% задач закрываются грамотным системным промптом.
Вы пишете детальную инструкцию, которая передаётся модели вместе с каждым запросом пользователя. Эта инструкция может включать:
Небольшой объём информации. Если вся необходимая информация помещается в 3-5 тысяч токенов (примерно 2-3 страницы текста), промпт-инжиниринг — оптимальный выбор. Например, список из 10-15 продуктов с ценами, основные правила работы, FAQ из 20-30 вопросов.
Стабильные данные. Если информация меняется редко (раз в месяц или реже), нет смысла строить сложную инфраструктуру. Обновить промпт — дело 5 минут.
Типовые сценарии. Бот для записи на услуги, квалификации лидов, ответов на базовые вопросы — всё это отлично работает на промптах.
Лимит контекста. У каждой модели есть максимальный размер контекста. GPT-4 Turbo — 128K токенов, Claude 3 — 200K, но использовать весь контекст дорого и снижает качество ответов. Практический лимит для системного промпта — 5-10K токенов.
Нет динамических данных. Если информация часто меняется или её много — промпт не справится.
Ты — AI-консультант компании «СтройМаркет», сети магазинов строительных материалов в Казахстане.
## Твоя задача
Помогать клиентам с выбором товаров, отвечать на вопросы о наличии и ценах, записывать на консультацию.
## Информация о компании
- 5 магазинов: Алматы (2), Астана (2), Шымкент (1)
- Часы работы: 9:00-21:00 без выходных
- Доставка: бесплатно от 50 000 тенге
## Категории товаров
1. Сухие смеси (от 2 500 тенге/мешок)
2. Краски и лаки (от 4 000 тенге/литр)
3. Инструменты (от 1 500 тенге)
4. Сантехника (от 15 000 тенге)
## Правила общения
- Отвечай на русском, если клиент не пишет на казахском
- Будь вежлив, но лаконичен
- Если не знаешь точную цену — предложи связаться с менеджером
- Не обсуждай конкурентов
## Если клиент хочет заказать
Уточни: 1) Что нужно 2) Адрес доставки 3) Удобное время
Затем скажи, что менеджер перезвонит для подтверждения.
RAG (Retrieval-Augmented Generation) — сейчас это мейнстрим для корпоративных ботов. Суть простая: знания хранятся отдельно, а когда приходит вопрос — система находит нужные куски и скармливает их модели.
Процесс состоит из нескольких этапов:
Большой объём документации. Сотни или тысячи документов, техническая документация, регламенты, инструкции. Всё это невозможно засунуть в промпт.
Данные меняются. Цены, наличие, акции, новые продукты. RAG позволяет обновлять базу знаний без переобучения модели.
Нужны ссылки на источники. RAG может указывать, откуда взята информация — это критично для поддержки и compliance.
Разные домены знаний. Бот для поддержки, который должен отвечать и про продукты, и про доставку, и про возвраты, и про гарантию.
Документы
Чанки
Векторная БД
Поиск
LLM + ответ
RAG — не серебряная пуля. Вот проблемы, с которыми мы сталкиваемся:
Качество поиска. Система нашла не те документы — ответ будет мимо. Тюнинг поиска (chunking, embedding model, re-ranking) — это отдельный квест. Подробнее — в статье про борьбу с галлюцинациями.
Качество документации. Если база знаний — свалка устаревших файлов, RAG будет нести чушь. Мусор на входе — мусор на выходе.
Контекстное окно. Найденные фрагменты занимают место в контексте. Если найти 10 релевантных чанков по 500 токенов — это уже 5000 токенов, которые платите за каждый запрос.
Latency. Поиск добавляет 100-500 мс к времени ответа. Для real-time голосового бота это может быть критично.
Сложные рассуждения. RAG хорош для фактических вопросов («какая цена на X?»), но слабее для вопросов, требующих синтеза информации из разных источников.
Проанализируем ваши задачи и данные, подберём оптимальный подход: промпт, RAG или их комбинацию. Бесплатная консультация.
Получить консультациюFine-tuning — это когда вы берёте модель и переучиваете её на своих данных. После этого она «помнит» вашу информацию — не надо каждый раз пихать в контекст.
Вы готовите датасет в формате «вопрос — правильный ответ» (или «инструкция — выполнение»). Этот датасет используется для дообучения модели: алгоритм корректирует веса нейросети так, чтобы она выдавала нужные ответы на нужные вопросы.
Для fine-tuning нужны:
Специфический стиль ответов. Если бот должен говорить определённым образом — в конкретном tone of voice, с использованием отраслевого жаргона, в формате, который невозможно описать промптом.
Глубокое понимание домена. Медицинская, юридическая, техническая терминология, которую базовая модель знает поверхностно. Fine-tuning помогает модели лучше «понимать» контекст вашей отрасли.
Сложные рассуждения. Если бот должен делать выводы, комбинировать информацию, применять специфические правила — fine-tuning может научить этим паттернам.
Снижение latency и стоимости. После fine-tuning не нужно передавать объёмный промпт или результаты поиска — модель «помнит» сама. Это экономит токены и ускоряет ответ.
Данные часто меняются. Каждое изменение = новое дообучение. Цены меняются каждую неделю? Fine-tuning превратится в бесконечный забег.
Нужны ссылки на источники. Fine-tuned модель не скажет «это из документа X». Знания растворились в весах — концов не найти.
Мало данных. 20-30 примеров — мало. Модель переобучится и будет плохо работать на новых вопросах.
Бюджет ограничен. Fine-tuning — это деньги: датасет, GPU-часы, итерации. Для простых задач — перебор.
| Параметр | Промпт | RAG | Fine-tuning |
|---|---|---|---|
| Время запуска | Часы | Дни-недели | Недели-месяцы |
| Стоимость запуска | $0-100 | $500-5000 | $2000-20000+ |
| Стоимость эксплуатации | Средняя (длинный промпт) | Средняя (поиск + контекст) | Низкая (короткий промпт) |
| Объём данных | До 5-10K токенов | Неограничен | Зависит от датасета |
| Обновление данных | Мгновенно | Минуты | Требует переобучения |
| Цитирование источников | Нет | Да | Нет |
| Latency | Минимальная | +100-500 мс | Минимальная |
| Сложность | Низкая | Средняя | Высокая |
Ответьте на вопросы:
1. Объём данных помещается в 5-10K токенов?
Да → Промпт-инжиниринг
2. Данные меняются чаще раза в месяц?
Да → RAG
3. Нужны ссылки на источники?
Да → RAG
4. Важен специфический стиль/терминология?
Да → Fine-tuning или комбинация
5. Критична минимальная latency?
Да → Промпт или Fine-tuning
В реальных проектах часто комбинируют подходы. Берут плюсы от каждого и закрывают слабые места.
Самая распространённая комбинация. Системный промпт задаёт роль, tone of voice и базовые правила. RAG подтягивает актуальную информацию по запросу.
Пример: Бот службы поддержки. Промпт описывает, как общаться с клиентами, какие вопросы эскалировать. RAG находит ответы в базе знаний, FAQ, документации.
Fine-tuned модель понимает вашу терминологию и стиль. RAG обеспечивает доступ к актуальным данным.
Пример: Юридический бот. Fine-tuning обучает модель правовой терминологии и формату ответов. RAG подтягивает конкретные статьи законов и прецеденты.
Fine-tuned модель знает ваш домен. Промпт управляет поведением в конкретных сценариях.
Пример: Бот для внутренней коммуникации. Fine-tuning на корпоративном жаргоне и процессах. Промпт задаёт разные роли: HR-бот, IT-хелпдеск, финансовый консультант.
Стартуйте с промпт-инжиниринга. Быстро, бесплатно, сразу видно, где модель тянет, а где нет. RAG или fine-tuning — только когда упрётесь в потолок.
Какой бы путь ни выбрали — данные решают. Для промпта нужны чёткие инструкции. Для RAG — актуальная, структурированная документация. Для fine-tuning — вычитанные, разнообразные примеры.
Соберите golden set — типовые вопросы с эталонными ответами. Прогоняйте после каждого изменения. Без этого вы не узнаете, стало лучше или хуже.
Не только стоимость запуска, но и стоимость эксплуатации: токены, инфраструктура, поддержка. RAG дешевле на старте, но поисковые запросы накручивают счёт.
Поможем выбрать оптимальную архитектуру, настроить RAG или подготовить данные для fine-tuning. Работаем по всему Казахстану.
Начать проектКонкретика по деньгам. Считаем для типичного проекта — бот службы поддержки для средней компании.
| Разработка промпта | 2-8 часов работы | $100-500 |
| Тестирование и итерации | 2-4 часа | $50-200 |
| Инфраструктура | — | $0 |
| Итого запуск | $150-700 | |
| Подготовка документации | 8-40 часов | $500-2500 |
| Настройка инфраструктуры | Векторная БД, пайплайн | $500-2000 |
| Разработка и тестирование | 16-40 часов | $1000-3000 |
| Инфраструктура (месяц) | Хостинг, API | $50-300/мес |
| Итого запуск | $2000-7500 | |
| Подготовка датасета | 40-200 часов | $3000-15000 |
| Дообучение модели | GPU-часы или API | $500-5000 |
| Тестирование и итерации | 2-5 циклов | $1000-5000 |
| Хостинг модели (месяц) | GPU-сервер или API | $100-1000/мес |
| Итого запуск | $5000-25000+ | |
Выбор между промптом, RAG и fine-tuning — не технический холивар, а бизнес-решение. Какая задача? Сколько данных? Как часто они меняются? Какой бюджет? Ответы на эти вопросы определяют подход.
Промпт-инжиниринг — точка старта. Быстро, почти бесплатно, сразу видно, летит или нет. Если задача решается промптом — зачем усложнять?
RAG — рабочая лошадка для большинства корпоративных ботов. Масштабируется, обновляется на лету, показывает источники. Но нужна инфраструктура и нормальная документация.
Fine-tuning — тяжёлая артиллерия. Когда нужен уникальный стиль, глубокое понимание домена или минимальная задержка. Дорого, долго, но даёт результат, который по-другому не получить.
На практике подходы комбинируют. Старт с промпта, потом RAG для масштаба, fine-tuning — когда упёрлись в потолок. Главное помнить: лучший бот — не тот, что на самой хайповой технологии, а тот, что решает задачу бизнеса.