Классификация данных с помощью машинного обучения

Пример внедрения в систему управления закупками

  • Категоризация текстов посредством машинного обучения
  • Автоматический поиск лучших цен c помощью машинного обучения (ссылка вот-вот появится!)
  • База прайс-листов и механизмы обработки данных из открытых источников
  • Методики и технологии оптимизации процессов несерийной расценки позиций
  • ЦОД: автоматизация бизнеса, процессов и разработка веб-приложений
  • BI-аналитика и интеграция

Ежедневно мы используем методы классификации для обработки информации и принятия решений. Безошибочно определяем, что «желтый», «красный» или «синий» относятся к классу «цвет». Используем навигацию по буквам алфавита при поиске книг или словарных понятий.

Задача классификации усложняется, когда мы имеем дело со значительными объемами данных при ограниченности возможностей и ресурсов.

Для компаний с разветвленной структурой, наличием филиалов и дочерних организаций количество классов закупок может достигать нескольких сотен. Позиции исчисляются тысячами. Торговые сети, интернет-магазины, производители и поставщики товаров находятся в похожей ситуации.

Другая проблема состоит в необходимости сопоставления классов, принятых внутри организации, со сторонними или общепринятыми классификаторами. Это могут быть прайс-листы поставщиков или ОКПД2 (Общероссийский классификатор продукции по видам экономической деятельности).

Человеческий фактор также очень важен. Рутинная обработка таблиц с тысячами строк неизбежно приводит к «замыливанию глаз». Случайные или предумышленные ошибки, потери данных трудно отслеживать. Сам процесс остается достаточно непрозрачным.

Классификация с использованием моделей машинного обучения позволяет существенно ускорить обработку данных и процессы распределения позиций.

В качестве примера мы рассмотрим один из наших кейсов по разработке и внедрению подобного сервиса в систему закупок одной из крупнейших российских компаний.

Обработка и классификация позиций проходит в несколько стадий:

Поставщики продукции передают информацию для закупок в различных форматах.

Сначала данные попадают в сервис преобразования. Там происходит перевод в подходящий для классификации формат.

Шина данных отвечает за очередь задач категоризации, контроль их исполнения и логирование процесса.

Сервис классификации обрабатывает полученные строки закупок по заранее заданным классам.

Модель машинного обучения решает задачи классификации конечным множеством (выборкой). На основании нее строится алгоритм, способный классифицировать объект из исходного множества.

Задача алгоритма определить, к какому классу или подклассу относится позиция. Алгоритм изучает ее по следующим характеристикам (в порядке приоритета по использованию):

  1. Наименование Материально-Технического Ресурса (МТР)
  2. ОКПД2
  3. Марка, сорт, артикул, размер, чертеж, опросный лист, техническое задание, комплектность
  4. ГОСТ, ТУ, СТО
  5. Единица измерения
  6. Наименование предприятия-изготовителя (с указанием страны производителя)
  7. Наименование / марка основного оборудования (при поставке запасных частей или комплектующих)
  8. Страна нахождения завода по производству
  9. Производство МТР (РФ / Импорт)
  10. Наименование производителя или торгового представительства производителя (дистрибьютора, в случае поставки импортных МТР)
  11. Различные ценовые данные

Далее сервис возвращает успешно классифицированные позиции с информацией по подклассу.

После обработки, данные импортируются в уже существующий сервис заказчика — модуль ценообразования материально-технических ресурсов (МЦ МТР). Там происходит дальнейшая расценка позиций согласно внутреннему классификатору.

Сейчас мы применяем градиентный бустинг, как основной алгоритм машинного обучения. Для обработки текстов мы выбрали методику мультиномиального наивного байесовского классификатора.

Нам удалось существенно повысить скорость обработки позиций — она происходит в реальном времени.

Для повышения градиента мы использовали библиотеки XBoost, LightGBM, CatBoost. Это существенно повысило точность и эффективность работы сервиса. Мы также достигли значительного снижения потребляемых ресурсов. Это позволило развернуть сервис на серверных мощностях заказчика без дополнительных затрат.

Информация о продукте
  • Сервис категоризации входит в Платформу по управлению материально-техническими ресурсами.

    Поддерживается отдельная интеграция сервиса во внутреннюю систему заказчика.

  • Быстрый запуск процесса внедрения благодаря готовой обучающей модели позволяет быстро запустить процесс внедрения.
Как выстроен процесс внедрения?
  1. Настройка обучающей модели
  2. Импорт и сопоставление классификатора заказчика
  3. Итеративное обучение алгоритма, анализ результатов и необходимые доработки
  4. Запуск сервиса на серверах заказчика

Технологическая справка

Градиентный бустинг — метод машинного обучения для задач регрессии и классификации. Используется в большинстве поисковых систем.

Прогнозная модель состоит из ансамбля слабых моделей прогнозирования, например, деревьев решений. Модель строится поэтапно, что позволяет оптимизировать произвольную дифференцируемую функцию потерь.

Мультиномиальный наивный байесовский классификатор — представляет собой семейство простых «вероятностных классификаторов», основанных на применении теоремы Байеса с сильными (наивными) предположениями о независимости между функциями.

XGBoost — Библиотека программного обеспечения с открытым исходным кодом, обеспечивающая рамки повышения градиента.

LightGBM — Платформа повышения градиента, использующая алгоритмы обучения на основе дерева решений.

CatBoost — Алгоритм повышения градиента на деревьях решений, разработанный исследователями и инженерами Яндекса.


Отправить
Запинить
Оцените полезность статьи
Спасибо!
Обращайтесь
за консультацией
  • Категоризация текстов посредством машинного обучения
  • Автоматический поиск лучших цен c помощью машинного обучения (ссылка вот-вот появится!)
  • База прайс-листов и механизмы обработки данных из открытых источников
  • Методики и технологии оптимизации процессов несерийной расценки позиций
  • ЦОД: автоматизация бизнеса, процессов и разработка веб-приложений
  • BI-аналитика и интеграция
Информация о продукте
  • Сервис категоризации входит в Платформу по управлению материально-техническими ресурсами.

    Поддерживается отдельная интеграция сервиса во внутреннюю систему заказчика.

  • Быстрый запуск процесса внедрения благодаря готовой обучающей модели позволяет быстро запустить процесс внедрения.
Как выстроен процесс внедрения?
  1. Настройка обучающей модели
  2. Импорт и сопоставление классификатора заказчика
  3. Итеративное обучение алгоритма, анализ результатов и необходимые доработки
  4. Запуск сервиса на серверах заказчика
Рассылка
Примерно раз в месяц присылаем статью о CRM, АТС и разработке
Спасибо!
Мы отправили
вам подтверждение