Автор: Скотт Золди, главный аналитик

Вы когда-нибудь хотели немедленно использовать неструктурированные данные, избегая хлопот с их тегированием? Это можно сделать с помощью совместного поведенческого профилирования. Совместные поведенческие профили создаются путем применения подхода текстовой аналитики к адаптивному обучению без учителя в реальном времени. Эти совместные поведенческие профили можно использовать для выявления аномалий в поведении клиентов без необходимости применять теги к данным. Например, каждое действие, которое может предпринять покупатель, переводится в уникальный символ; это создает уникальную строку символов (определяемую фиксированным действием в словаре символов), которая определяет поведение каждого клиента и отслеживает изменения в реальном времени по мере появления новых событий.

Байесовское обучение для получения архетипов
Байесовское обучение можно использовать для получения архетипов в пространстве скрытых признаков загрузок символов. Эти архетипы превращают историю символа в набор адаптирующихся поведенческих архетипов в реальном времени. Эти архетипы помогают нам понять клиентов на основе скрытых характеристик, чтобы распознать, с какими другими клиентами они больше всего похожи, и определить, отклоняются ли действия человека от ожидаемых.

Здесь важно отметить, что архетипы в этом примере не являются предопределенными сегментами клиентов. Напротив, каждый покупатель представлен как смесь архетипов, не закрепленных в единой жесткой классификации. Вероятностная интерпретация важна, потому что она фиксирует плотности вероятностей, связанные с различными назначениями архетипов; они не закреплены жестко. Эта смесь может обновляться в режиме реального времени на основе новых транзакций и другой информации о клиентах, поэтому профиль совместной работы каждого уникального клиента меняется по мере развития их индивидуальных данных.

Использование архетипов для обозначения поведения

Архетипы - это мощные концепции, поскольку они представляют собой скрытые особенности, которые имеют физически интерпретируемое значение и ценность. Мы часто используем изображения архетипов, чтобы представить действия и поведение, типичные для определенных людей, которые строго связаны с одним архетипом. Когда происходит что-то, что заставляет человека отклоняться от заданного им распределения архетипов, возникает интересное приложение для идентификации мошенничества; вы можете увидеть пример этого в таблице ниже. Изменились привычки этого человека к расходам, подняв красный флаг в адаптивной модели без учителя. Это указывает на то, что их поведение не соответствует историческим поведенческим архетипам / скрытым чертам.

Байесовский алгоритм обучения словам архетипам не контролируется и не имеет целей (то есть нет тегов, указывающих на мошенничество или не мошенничество). Тем не менее, он может обнаруживать аномалии. Видите, как в сентябре кардинально изменится распределение процентов? Этот сдвиг от установленного архетипа распределения обнаруживается неконтролируемой аналитикой, чтобы вызвать предупреждение о девиантном поведении. Необязательно, чтобы это происходило ежемесячно, еженедельно или ежедневно, на самом деле, в мошеннических приложениях FICO это происходит в режиме реального времени по мере того, как событие происходит.

Обнаружение выбросов
Обнаружение выбросов добавляет еще одно измерение обучения в дополнение к традиционным контролируемым аналитическим методам, основанным на тегах.

Обнаружение выбросов добавляет еще одно измерение обучения в дополнение к традиционным контролируемым аналитическим методам, основанным на тегах. После кластеризации клиентов в пространстве архетипов, чтобы определить, какие из них похожи, мы можем увидеть, отклоняется ли человек от своих сверстников в этом пространстве архетипов; это указывает на отклонение. Учитывая адаптивный, самообучающийся характер методов в реальном времени, модель может дополнительно адаптироваться к изменениям популяции, обеспечивая при этом рекурсивные квантильные оценки характеристик в реальном времени. Это может произойти даже при отсутствии автономного хранилища наборов исторических данных.

Эти неконтролируемые методы обеспечивают огромную гибкость для решения бизнес-задач, когда из-за отсутствия исторических данных или тегов моделирования контролируемая разработка модели останавливается.

Первоначально опубликовано на community.fico.com.