Среди аналитических задач время от времени попадаются нестандартные - те, у которых нет известного решения.


В одном из давних проектов мы анализировали новостной портрет одного из субъектов РФ - как выглядит регион глазами человека, читающего СМИ.


Идея пришла довольно быстро: показать ключевые слова (ключевые фигуры и бизнес региона, а также характерные слова, такие как, например, "инновация"), а также их связи. Немного обработки, и мы получили карту связанных понятий, вот она:



Пристальное изучение карты позволило сделать много содержательных выводов: и то, что именно обсуждается, и то, в каком контексте. Отдельные кластеры сформировались вокруг ключевых бизнесов региона, хоккея, авиации, операторов связи и сельскохозяйственных инициатив.


Выводы были использована на сессии стратегического планирования развития региона, сама карта была несколько раз распечатана на широкоформатных листах и породила немало обсуждений и инсайтов.

Иногда кассиры проводят товары мимо сканера. Намеренно или нет (ситуации бывают разные), но это существенная статья потерь для любого ритейлера, и службы безопасности за этим пристально следят.


В большинстве сетевых ритейлеров над каждым кассиром находится камера, которая снимает его действия, эти видео потом просматривают видеоаналитики. Но час работы видеоаналитика стоит дороже часа кассира, и просматривать все видео экономически невозможно. Возникает постановка задачи: выбрать те фрагменты, где пронос мимо сканера наиболее вероятен.


Простое решение напрашивается само собой: все, что сканировалось дольше 5 секунд (после пробития предыдущего товара) - направляем на аналитику. Пробуем, видим: большинство таких товаров - сигареты (которые кассир достает из специального ящика), шоколадки (которые клиент берет в последний момент из прикассовой зоны), пакеты (которые нужно отделить от пачки и раскрыть). Подход не сработал.


На помощь приходит машинное обучение. Мы прогнозируем время, необходимое для сканирования товара, с учетом множества факторов (включая, например, день и ночь, опытность кассира и прочие) и берем те сканирования, которые заняли необычно много времени.


Результат пилота - порядка 30% выделенных машиной случаев действительно стоят внимания. И это те случаи, которые ранее не попадали под пристальный взгляд видеоаналитиков и СБ.


"В ходе короткого пилота мы смогли убедиться, что предположение о возможности выделять в потоке данных с касс интересующие нас аномалии - оправдалось."
Сергей Малютенков, Управляющий партнер, "Император-техно"

В рамках программы развития корпоративного университета Exactpro мы выступили совместной командой на хакатоне SWIFT 2021. Результат - 2 место в номинации "Генерация обезличенных безопасных данных". Первое место заняла команда JP Morgan, также в хакатоне принимали участие команды около 20 глобальных банков и консалтинговых компаний.


Презентация команды прозвучала на конференции SYBOS'2021, также на ее основе была написана научная статья.


"Мы начали работу с Syndata с нескольких прикладных проектов на основе машинного обучения, и дошли до корпоративного университета и 2 места в хакатоне SWIFT. Андрей и его команда не только делали Data Science часть, но и очень помогли с идеями, организацией и мотивацией."
Елена Васина, Exactpro, заместитель генерального директора.