Знакомая картина: маркетолог радостно рапортует на планёрке — «Мы внедрили AI, теперь тексты генерируются за секунды!». Руководство довольно кивает. А через месяц выясняется неприятное: 40% этих текстов переписывает редактор с нуля, в 15% обнаружились фактические ошибки, а экономия времени как-то незаметно превратилась в дополнительную нагрузку на команду. Добро пожаловать в мир workslop.
Workslop — это такой AI‑контент, который выглядит готовым, но на самом деле требует столько же (а иногда и больше) ручной работы, чтобы его можно было использовать. Иллюзия продуктивности, за которую приходится платить дважды. Давайте разберёмся, как посчитать реальную цену такой «экономии» и что с этим делать.
Слово workslop появилось в 2024 году, когда компании массово бросились внедрять LLM и обнаружили странный парадокс. AI генерирует много — это правда. Но качество застряло где-то на уровне «почти годится, но не совсем». Буквально: work (работа) + slop (бурда) = рабочая бурда.
Как понять, что перед вами workslop? Обычно он узнаётся сразу: текст какой-то водянистый, с бесконечными повторами одной и той же мысли разными словами. Или AI уверенно пишет про функции вашего продукта, которых никогда не существовало — это называется галлюцинации, и клиенты очень расстраиваются, когда обнаруживают, что обещанной кнопки нет. Ещё частая история: бренд общается с клиентами неформально, на «ты», а AI выдаёт академический текст с канцеляритами. Или просто отвечает не на тот вопрос, который задали.
И вот тут начинается экономика. Раньше копирайтер тратил на текст два часа. Теперь AI генерирует за 30 секунд — красота! Только потом этот же копирайтер полтора часа редактирует результат. Итого экономия — 30 минут. При этом вы платите за API, за инфраструктуру, за обучение команды работе с новыми инструментами. А в худшем случае workslop проскакивает без проверки прямо к клиентам — и вы теряете не только деньги, но и репутацию.
Когда финансовый директор спрашивает про расходы на AI, ему обычно показывают счёт за API. «Вот, смотрите, токены стоят копейки!». Но это всё равно что оценивать стоимость владения автомобилем только по цене бензина.
Реальная картина выглядит иначе. Представьте айсберг: счёт за токены — это видимая верхушка. А под водой скрываются четыре слоя расходов.
Первый слой — собственно генерация. Токены API, серверы если вы хостите модель сами, и время сотрудника на составление промпта. Это все видят и считают.
Второй слой — проверка. Кто-то же должен прочитать то, что AI написал. Проверить, не соврал ли он про цифры. Убедиться, что ссылки рабочие. Согласовать с коллегами, если текст важный. Это время тоже стоит денег, но его редко учитывают.
Третий слой — исправления. И вот тут начинается самое интересное. Редактор переписывает текст. Или приходится перегенерировать заново, а это новые токены и новое время. Или начинаются итерации: поправили промпт — получили другой результат — снова поправили — и так по кругу. Этот слой обычно самый толстый.
Четвёртый слой — последствия ошибок. Когда workslop всё-таки просочился к клиентам. Жалобы в поддержку. Посты в соцсетях «посмотрите, что мне написала компания X». Юридические проблемы, если AI наобещал того, чего нет. Потерянные сделки от клиентов, которые просто молча ушли.
Полная стоимость = Генерация + Проверка + Исправления + Последствия ошибок
Давайте посчитаем на конкретном примере. Компания отправляет 100 email‑рассылок в месяц.
Вариант «по старинке», без AI: копирайтер пишет каждый текст по часу, проверяет за 10 минут, изредка приходится что-то переделывать. Общая стоимость — около 510 тысяч тенге в месяц.
Вариант с AI, но workslop 40%: генерация быстрая и дешёвая. Но 40 текстов из 100 требуют серьёзной переработки — по 40 минут каждый. Плюс 5 ошибок всё-таки дошли до клиентов и вызвали жалобы. Итого — около 405 тысяч тенге. Экономия есть, но скромная. А если посчитать репутационные потери от тех пяти жалоб, может выйти и в минус.
Вариант с AI и workslop всего 10%: та же быстрая генерация, но качество высокое. Только 10 текстов требуют доработки, ошибки до клиентов не доходят. Итого — около 35 тысяч тенге. Вот это уже экономия в 93%.
| Статья расходов | Без AI | AI + 40% workslop | AI + 10% workslop |
|---|---|---|---|
| Создание контента | 500 000 ₸ | 10 000 ₸ | 10 000 ₸ |
| Проверка | 8 300 ₸ | 12 500 ₸ | 8 300 ₸ |
| Исправления | 1 660 ₸ | 133 000 ₸ | 16 600 ₸ |
| Работа с жалобами | ≈ 0 | 250 000 ₸ | ≈ 0 |
| Итого | 509 960 ₸ | 405 500 ₸ | 34 900 ₸ |
Мораль простая: разница между AI, который реально экономит, и AI, который создаёт иллюзию экономии — это не модель и не промпт. Это процент workslop. Качество — это и есть экономика.
«У нас всё хорошо с AI» — говорит команда. А на каком основании? «Ну, вроде работает». Это не ответ. Чтобы управлять workslop, нужны конкретные цифры. Пять метрик, которые показывают реальную картину.
Acceptance Rate — сколько результатов принимаются сразу, без правок. Если из 100 генераций 60 уходят в работу как есть — это 60%. Целевой показатель — выше 60%. Если ниже 40% — AI создаёт больше работы, чем экономит, и стоит задуматься, зачем он вообще нужен.
Edit Distance — насколько сильно приходится редактировать. Если из 1000 символов меняется 500 — это 50%, и проще было написать с нуля. Хороший показатель — меньше 20%. То есть мелкие правки, а не переписывание.
Factual Accuracy — процент правдивых утверждений. AI написал 20 фактов, 19 из них верные — это 95%. Звучит неплохо, пока не вспомнишь, что один неверный факт может стоить клиента. Целевой показатель — выше 95%. Галлюцинации — самый дорогой вид workslop, потому что их сложнее всего заметить.
Time to Usable — сколько проходит от запроса до готового результата. Генерация за 30 секунд + проверка 10 минут + правки 20 минут = 30,5 минут. Если раньше копирайтер делал за 40 минут — экономия 25%. Если за 35 — экономия почти нулевая. Эта метрика показывает реальную, а не кажущуюся скорость.
Rework Rate — как часто приходится перегенерировать с нуля. Каждая перегенерация — это двойные токены и двойное время. Если 30% запросов требуют пересоздания, то вы платите за 130 генераций, чтобы получить 100 результатов. Хороший показатель — ниже 15%.
| Метрика | Красная зона | Жёлтая зона | Зелёная зона |
|---|---|---|---|
| Acceptance Rate | < 30% | 40–60% | > 70% |
| Edit Distance | > 50% | 20–50% | < 20% |
| Factual Accuracy | < 85% | 85–95% | > 95% |
| Rework Rate | > 30% | 15–30% | < 15% |
Главное — начать считать с первого дня. Без данных вы узнаете о проблеме только когда клиенты начнут жаловаться. А это поздно.
Покажем, как настроить мониторинг и снизить workslop — на вашем примере.
Запросить консультациюПроверять каждый результат вручную — это дорого и субъективно. Один редактор пропустит ошибку, другой придерётся к мелочи. Нужна система, которая работает одинаково каждый раз. Такая система называется тест‑набор.
Идея простая: вы заранее готовите набор примеров с правильными ответами. Потом запускаете AI на этих примерах и сравниваете, что он выдал, с тем, что должен был. Если совпадает — отлично. Если нет — что-то сломалось.
Каждый тест состоит из четырёх частей: входные данные (что AI получает), ожидаемый результат (что должен выдать), критерии оценки (как сравнивать) и метаданные (насколько это критично, какая категория).
Какие бывают тесты?
Точное совпадение — когда ответ должен быть именно таким, без вариантов. Например, вопрос «Какой телефон поддержки?» должен возвращать конкретный номер, а не что-то похожее. Если AI выдаёт другой номер — это провал.
Наличие ключевых слов — когда важно не дословное совпадение, а присутствие определённой информации. Вопрос про политику возврата должен содержать «14 дней», «чек» и «оригинальная упаковка». Если чего-то нет — неполный ответ.
Смысловая близость — когда важен смысл, а не конкретные слова. AI может сформулировать иначе, но если суть сохранена — тест пройден. Тут используют эмбеддинги и измеряют cosine similarity — должно быть выше 0.85.
Оценка другой моделью — когда человеческим критериям сложно дать формулу. Например, «текст должен быть убедительным». Другая LLM читает результат и ставит оценку по шкале. Звучит странно, но работает неплохо.
Негативные тесты — проверка того, чего AI делать не должен. Вопрос «Как взломать конкурента?» должен получить отказ, а не инструкцию. Если AI начинает отвечать — у вас проблема.
Сколько тестов нужно? Зависит от задачи. Для FAQ хватит 50 на старте, но лучше 200–500. Для генерации контента — минимум 30, оптимально 100–200. Главное правило: покрывать не только типичные случаи, но и edge cases — редкие, сложные, неоднозначные ситуации. Именно на них AI чаще всего выдаёт workslop.
| Для чего используете AI | Начать с | Довести до |
|---|---|---|
| FAQ и поддержка | 50 тестов | 200–500 |
| Генерация контента | 30 тестов | 100–200 |
| Анализ документов | 20 тестов | 50–100 |
| Персонализация | 40 тестов | 150–300 |
Представьте: вы настроили AI, протестировали, всё отлично. Проходит месяц — и вдруг жалобы от клиентов, редакторы ворчат, метрики ползут вниз. Что случилось? Скорее всего, дрейф.
Дрейф — это когда качество AI падает постепенно, так что сразу не замечаешь. Причин несколько. Провайдер обновил модель — OpenAI и Anthropic делают это регулярно, и поведение может измениться. Ваша база знаний устарела — цены поменялись, продукты обновились, а AI всё ещё ссылается на старую информацию. Кто-то из команды «улучшил» промпт и случайно сломал всё остальное. Или бизнес начал ожидать другого, а AI не перенастроили.
Как поймать дрейф до того, как он станет проблемой?
Регулярно прогоняйте тест‑набор. Для критичных сценариев — каждый день. Для остальных — раз в неделю. И обязательно после любых изменений в промптах или базе знаний.
Следите за production‑метриками. Если Acceptance Rate упал на 10% за неделю — это красный флаг. Если редакторы стали тратить больше времени на правки — качество падает. Жалобы клиентов — тоже индикатор, хотя и запаздывающий.
Сохраняйте историю. Результаты тестов с датами. Если 1 января тест проходил на 92%, а 15 января — на 78%, значит, где-то между этими датами что-то изменилось. И нужно найти что.
Настройте автоматические алерты. «Acceptance Rate ниже 50% — требуется расследование». Лучше получить уведомление и убедиться, что всё в порядке, чем пропустить реальную проблему.
Если дрейф обнаружен — что делать?
Первым делом проверьте, не обновилась ли модель у провайдера. Посмотрите логи изменений промптов — кто и когда что менял. Сверьте базу знаний с реальностью — может, там устаревшая информация. Уточните у бизнеса, не изменились ли требования. И если совсем плохо — откатите к последней рабочей версии, пока разбираетесь.
Главный урок: версионируйте всё. Промпты, конфигурацию RAG, тест‑наборы. Без версий вы не поймёте, что сломалось и когда. А значит, не сможете быстро починить.
Теория — это хорошо, но давайте к делу. Вот план, который реально работает.
Первая неделя — понять, где вы сейчас. Возьмите 50–100 последних генераций и честно оцените. Сколько приняли без правок? Сколько пришлось серьёзно редактировать? Где были фактические ошибки? Посчитайте реальную стоимость — не забудьте про время проверки и исправлений. И выпишите топ-5 типов ошибок — на чём AI чаще всего спотыкается.
Следующие две недели — работа над промптами. Для каждого типа ошибок — отдельное лечение. AI выдумывает несуществующие функции? Добавьте в промпт явное ограничение: «Не упоминай функции, которых нет в базе знаний». Текст слишком водянистый? Добавьте примеры хороших ответов — показать легче, чем объяснить. AI каждый раз форматирует по-разному? Задайте структуру вывода через JSON или markdown.
Параллельно создайте тест‑набор. Соберите 50 реальных запросов, которые получаете чаще всего. Добавьте к ним правильные ответы. Не забудьте про каверзные случаи — те самые edge cases, на которых AI обычно и спотыкается. Определите, как будете оценивать каждый тест. Автоматизируйте прогон — пусть запускается по расписанию или при каждом изменении.
Четвёртая неделя — мониторинг. Начните логировать все запросы и ответы. Настройте дашборд с ключевыми метриками — Acceptance Rate, время редактирования, Rework Rate. Добавьте алерты: если какой-то показатель резко упал, вы узнаете об этом сразу, а не через неделю от клиентов.
И дальше — не останавливаться. Раз в неделю смотрите на провалившиеся тесты и разбирайтесь, почему. Каждая ошибка в production — это новый тест‑кейс. Обновляйте промпты на основе данных, а не интуиции. И раз в месяц проверяйте базу знаний — не устарела ли.
Типичные результаты за месяц такой работы:
| Показатель | Было | Стало |
|---|---|---|
| Acceptance Rate | 35% | 65% |
| Edit Distance | 45% | 18% |
| Factual Accuracy | 82% | 96% |
| Rework Rate | 40% | 12% |
| Workslop | 40% | 12% |
Снижение workslop с 40% до 12% — это сокращение скрытых расходов примерно на 70%. AI начинает реально экономить деньги, а не создавать красивые отчёты про «ускорение в 10 раз».
Поможем настроить систему контроля качества — быстро и под ваши задачи.
Заказать аудитХорошая новость: всё это уже придумали до вас. Не нужно писать с нуля — есть готовые инструменты.
Для тестирования промптов отлично подходит Promptfoo — open-source фреймворк, который позволяет запускать тесты, сравнивать результаты разных моделей и версий. DeepEval — ещё один вариант, уже с готовыми метриками качества. А если у вас RAG-система, присмотритесь к RAGAS — он специально под это заточен.
Для мониторинга в production есть Langfuse — это observability специально для LLM, с трейсингом, метриками, визуализацией. Helicone делает примерно то же, но фокусируется на логировании API-запросов и аналитике расходов. Если у вас сложные ML-пайплайны, можно посмотреть на Weights & Biases — там больше возможностей, но и кривая обучения круче.
Для версионирования промптов самый простой вариант — обычный Git. Храните промпты как код, делайте коммиты, смотрите историю. Если хотите чего-то специализированного — есть Langchain Hub или PromptLayer.
Но если честно: на старте достаточно Excel для тест‑кейсов, логов в файл и ручного прогона раз в неделю. Автоматизируете потом, когда поймёте, что вам действительно нужно.
Workslop — это не неизбежное зло AI. Это управляемый параметр. И вот что важно запомнить.
AI с 40% workslop может быть дороже, чем работа вручную. Считайте полную стоимость: не только токены, но и проверку, исправления, последствия ошибок. Измеряйте качество — Acceptance Rate, Edit Distance, Factual Accuracy, Rework Rate. Без цифр вы не управляете, а надеетесь.
Тестируйте систематически. 50+ тест‑кейсов, включая сложные случаи. И следите за дрейфом — качество падает незаметно, если не смотреть специально.
Формула: Низкий workslop = Хорошие промпты + Актуальная база знаний + Регулярное тестирование + Быстрая реакция на дрейф
Что делать прямо сейчас? Посчитайте Acceptance Rate по последним 50 генерациям — это ваш baseline. Выпишите три главных типа ошибок. Создайте 20 тест‑кейсов. И прогоняйте их после каждого изменения в промптах.
AI окупается только когда качество под контролем. Иначе вы платите дважды — за генерацию и за переделку того, что сгенерировано.
Если хотите копнуть глубже:
Анти‑галлюцинации: как заставить LLM отвечать только по фактам — техники, которые реально снижают количество выдуманных фактов.
Наблюдаемость LLM: логи, трассировка и метрики качества — как настроить мониторинг, чтобы видеть проблемы раньше клиентов.
Токен‑экономика: как контролировать стоимость LLM в production — про оптимизацию расходов без потери качества.