Как внедрить LLM/ML в бизнес: реальные кейсы Kolesa Group
Рассказывает Хамбар Дусалиев, руководитель отдела ML & Operations Kolesa Group

После 2022 года, с появлением ChatGPT, об искусственном интеллекте стали говорить чаще. Технология, которая раньше обсуждалась в профессиональной среде, стала доступна широкой аудитории. С искусственным интеллектом теперь можно просто взаимодействовать — задать вопрос и получить ответ.
Из-за этого появилось ощущение, что AI — универсальный инструмент. Если он умеет работать с текстом, кажется, что его можно встроить в любой продукт и сразу получить результат. На практике это не так.
В чем разница между AI, ML, LLM и где их применять
AI или ИИ (искусственный интеллект) — подраздел Data Science, изучающий способность компьютерных систем подражать когнитивным функциям (смотреть/слышать/управлять/говорить) человека.
ML (машинное обучение) — это подраздел AI/ИИ. Конкретный набор алгоритмов, благодаря которым как раз таки можно создать AI.
LLM (большие языковые модели) — вид ML, работающий с текстом: читает, пишет, отвечает на вопросы. ChatGPT — один из таких примеров.
По данным McKinsey & Company в исследовании за 2025 год, 88% компаний в мире используют ИИ как минимум в одной бизнес-функции. А по данным Hostiger, примерно 67 % организаций в мире уже используют LLM для работы с генеративным AI.
Как понять нужен ли AI вашему решению
В Kolesa Group любое решение следует из миссии компании, реальных потребностей пользователей и целей, которые нужно достичь.
Поэтому перед тем, как определить решение, нужно понять, есть ли вообще проблема.
Если проблема существует, команда формулирует, в чём именно она заключается и почему её важно решать.
Дальше рассматривается, как эту проблему можно решить.
На этом этапе команда оценивает разные варианты: изменения в процессах, продуктовые доработки, правила, автоматизация, классические алгоритмы, машинное обучение.
И только после этого команда задаёт следующий вопрос: действительно ли эту задачу имеет смысл решать с помощью AI.
В этой логике AI — не цель, а один из десятков инструментов, который используют только тогда, когда он даёт измеримую пользу и не создаёт лишних рисков.
Что важно понять до внедрения AI
Ещё до разработки команда должна ответить на несколько практических вопросов:
- сколько будет стоить внедрение — в деньгах, инфраструктуре и человеко-часах;
- по каким метрикам мы поймём, что решение работает;
- что произойдёт, если модель ошибётся.
Ошибки неизбежны, поэтому заранее продумываются механизмы защиты:
- ограничения на автоматические действия модели;
- проверки результата человеком;
- возможность быстро откатить или скорректировать решение;
- процессы, которые позволяют исправить последствия, если модель дала неверный ответ или дезинформировала пользователя.
Где LLM работают хорошо
Хороший пример — оценка качества работы операторов колл-центра.
Требования к такой оценке меняются постоянно. Сегодня важно проверить вежливость, завтра — работу с возражениями, послезавтра — корректную реакцию на отказ. Контекст остаётся тем же, меняется только фокус.
В таких сценариях LLM выигрывают за счёт гибкости: достаточно изменить запрос, и модель начинает искать другое без переобучения.
Именно в таких сценариях LLM работают лучше всего:
- требования могут меняться со временем;
- контекст остаётся примерно тем же;
- конечный результат читает человек, а не система;
- скорость ответа не критична до миллисекунд.
Где LLM не подходят
Во-первых, сценарии, где критична скорость ответа. Если система должна реагировать практически мгновенно, задержки на запрос к модели становятся проблемой.
Во-вторых, большие объёмы данных. Например, рекомендательные системы или логи, которые генерируются тысячами событий в секунду. Контекст LLM ограничен, и такие задачи они решают плохо.
В-третьих, чувствительные данные. В личных сообщениях пользователи могут передавать документы и персональную информацию, и передача такого контента внешнему провайдеру становится отдельным риском.
Как понять, какую технологию выбрать
Ниже привели три кейса Kolesa Group. Они показывают, где LLM работают лучше, а где классические ML-модели дают более стабильный результат.
Кейс: спам в сообщениях
В сервисах Kolesa Group пользователи пишут друг другу, и со временем появляется спам. Первоначальная идея была простой: показать сообщение LLM и определить, является ли оно спамом. На практике реализация оказалась сложной, а результат — недостаточно качественным для использования в продукте.
Причины:
- ответ приходил медленно;
- возникали риски, связанные с персональными данными;
- модель часто ошибалась и блокировала обычные сообщения.
В итоге была реализована классическая ML-модель. Для этого вручную разметили около 112 тыс. сообщений. Процесс оказался долгим, но результат — стабильный. Например, в 2025 году с помощью ML-модели на Kolesa.kz было заблокировано почти 1 млн спам-сообщений, а ежедневно система отлавливает 91 % спама.
Вывод: сравнение подходов и расчёт стоимости необходимо делать заранее.
LLM чаще всего работают через облако, а оплата зависит от объёма текста — сколько модель прочитала и сколько сгенерировала. Чем больше пользователей, тем выше стоимость, поэтому расходы важно оценивать до внедрения.
Модель можно развернуть локально. Это безопаснее с точки зрения данных, но дороже и сложнее в поддержке.
Кейс: чат-бот поддержки
В этом сценарии LLM подходят оптимально.
Пользователь формулирует вопрос и ожидает понятный текстовый ответ с учётом контекста и истории диалога. LLM хорошо справляются с генерацией текста, а результат их работы читает человек.
При этом важно заранее определить, где будут храниться данные. Возможны облачные решения и self-hosted-инфраструктура. Каждый вариант имеет свои ограничения и преимущества.
Кейс: колл-центр
В задачах речевой аналитики команда Kolesa Group сначала использовала классический подход — обучение собственных моделей. На практике он оказался плохо масштабируемым.
Разметка диалогов требовала высокой экспертизы. Корректно выполнять её могли только супервайзеры с ограниченным временем. В среднем один человек мог разметить не более 50 диалогов в день. Данных не хватало, требования часто менялись, а добавление нового языка означало повтор всей работы.
В результате команда перешла на LLM-подход. Он позволил работать с разными сценариями и языками без постоянного переобучения моделей и трудоёмкой разметки. В результате сбор анализа данных сократился с двух дней до 40 минут, а качество звонков по внутренней оценке аналитиков увеличилось на 5 процентных пунктов.
Итоги
AI не является универсальным решением. Он работает эффективно только тогда, когда соответствует задаче, ограничениям и ожиданиям от результата.
Если кратко:
- LLM подходят, когда нужен гибкий текстовый результат, ориентированный на человека;
- классические ML-модели эффективнее, когда важны скорость, масштабируемость и предсказуемость;
- выбор технологии начинается не с инструмента, а с понимания задачи.