AI для категорий и фильтров: как GPT улучшает таксономию каталога
Автор: WebGoodPeople
Реальная проблема больших каталогов
В крупном интернет-магазине одна и та же товарная позиция может называться по-разному: «Трубы стальные», «Стальная труба», «Трубы ст.» — и всё это в одном каталоге. Плюс к этому — категории с одним товаром, пустые значения атрибутов фильтров, сотни позиций без категории вовсе. Это не гипотетическая ситуация: это то, что мы видим почти на каждом проекте с каталогом от 3 000 SKU.
Последствия ощутимы: фасетный поиск не работает нормально, пользователь получает нулевые результаты там, где товар физически есть, рекомендательный движок ошибается, а SEO страдает из-за дублей и пустых страниц. Ручная правка 8 000 позиций — это месяцы работы контент-менеджеров с высоким процентом ошибок.
Три конкретные задачи, которые решает AI
а) Нормализация названий и атрибутов. GPT получает батч из 50–100 товаров вместе с промптом, в котором описаны правила таксономии: какие категории существуют, как должны называться атрибуты, какие значения допустимы. На выходе — нормализованные названия и предложенные значения свойств. Никакой магии: это по сути структурированная классификация по заданным правилам.
б) Присвоение категории неразмеченным товарам. Товары без категории — частая проблема при миграции из 1С или при загрузке прайса от поставщика. GPT анализирует название, описание и существующие характеристики, предлагает категорию из фиксированного списка. Работает хорошо при чётко описанных правилах и примерах в промпте.
в) Генерация пропущенных значений атрибутов из текста описания. Если у товара есть подробное описание, но не заполнено свойство «Материал» или «Класс точности» — GPT извлекает значение из текста. Это дешевле, чем писать парсер под каждый тип товара, и точнее, чем оставлять поле пустым.
Архитектура: только батчевая обработка
Принципиально важный момент: AI-обогащение таксономии — это не real-time процесс. Встраивать вызов OpenAI в момент сохранения товара — плохая идея: это задержки, непредсказуемые ошибки и накопление неверных данных без возможности откатить.
Правильная схема выглядит так: агент Bitrix по расписанию выбирает 50–100 товаров, у которых не заполнено свойство X (например, «Категория AI» или «Материал черновой»), отправляет батч в OpenAI, получает ответ и записывает результат в черновое свойство — не в основное. Дальше — ручная проверка.
Реальный пример: каталог метизов, 8 000 SKU
На одном из проектов — каталог строительных метизов — ситуация на старте была следующей:
- 34% товаров не имели присвоенной категории
- Заполненность атрибутов фильтров — 58%
- Более 120 вариаций названий для ~30 реальных категорий
После внедрения батчевой AI-классификации с ревью-гейтом за 6 недель:
- Точность автоприсвоения категории — 91% (проверено на выборке 500 товаров)
- Заполненность атрибутов фильтров выросла с 58% до 89%
- Количество вариаций названий категорий сократилось до 31 (по числу реальных категорий)
Важно: эти цифры достигнуты не автоматически, а именно благодаря ревью-гейту — еженедельной проверке выборки перед публикацией.
Ревью-гейт — не опция, а обязательное условие
AI ошибается. Не часто, но систематически в определённых паттернах: редкие категории, нестандартные товары, омонимы в названиях. Поэтому схема «AI присваивает → сразу публикуется» неприемлема для производственного каталога.
Рабочая схема: AI-значение попадает в черновое свойство Bitrix (например, CATEGORY_AI_DRAFT). Раз в неделю контент-менеджер или аналитик просматривает 20–30 случайных позиций из новой порции. Если точность выше порогового значения (обычно 90%) — вся порция промоутируется в боевое свойство скриптом. Если ниже — батч отправляется на ручную правку.
Этот процесс можно автоматизировать частично: считать confidence score из ответа GPT и автоматически пропускать только высокоуверенные присвоения. Но ручная проверка выборки всё равно нужна — хотя бы раз в месяц.
Что это даёт на выходе
- Фасетный поиск работает корректно — фильтры по атрибутам не возвращают пустые результаты
- Zero-results rate снижается — пользователь находит товар, даже если его запрос не совпадает точно с названием
- Рекомендации точнее — движок видит правильную категорию и атрибуты, а не «мусор»
- SEO улучшается — страницы категорий получают реальный контент, дубли устраняются
Если у вас каталог от 2 000 SKU с историческими данными из 1С или от поставщиков — AI-обогащение таксономии окупается быстро. Не как замена контент-команды, а как инструмент, который берёт на себя рутинную классификацию и освобождает людей для работы, где нужна реальная экспертиза.
Хотите разобраться, как это применимо к вашему каталогу? Подробнее об AI-интеграции — или напишите нам, обсудим пилот на вашем каталоге.