Анализ клиентских сред
Материал из MachineLearning.
(11 промежуточных версий не показаны.) | |||
Строка 14: | Строка 14: | ||
'''Анализ клиентских сред''', АКС (customer environment analysis, CEA) — это технология обработки протоколов действий клиентов, позволяющая эффективно вычислять взаимно согласованные оценки сходства клиентов и сервисов, и использовать их для решения таких бизнес-задач, как автоматизация маркетинговых исследований, формирование направленных предложений клиентам, персонализация сервисов, повышение удовлетворённости и лояльности клиентов, более эффективное привлечение и удержание клиентов. | '''Анализ клиентских сред''', АКС (customer environment analysis, CEA) — это технология обработки протоколов действий клиентов, позволяющая эффективно вычислять взаимно согласованные оценки сходства клиентов и сервисов, и использовать их для решения таких бизнес-задач, как автоматизация маркетинговых исследований, формирование направленных предложений клиентам, персонализация сервисов, повышение удовлетворённости и лояльности клиентов, более эффективное привлечение и удержание клиентов. | ||
- | Концепция ''клиентской среды'' | + | Концепция ''клиентской среды'' предложена чл.-корр. РАН [[Рудаков, Константин Владимирович|К. В. Рудаковым]] в конце 90-х. На её основе компанией [[Форексис]] развивается ''[http://www.forecsys.com/ru/site/tech/cea/ технология анализа клиентских сред]''. |
Технология АКС может быть использована для построения | Технология АКС может быть использована для построения | ||
Строка 21: | Строка 21: | ||
[[Управление взаимоотношениями с клиентами|управления взаимоотношениями с клиентами]] (customer relationship management, CRM). | [[Управление взаимоотношениями с клиентами|управления взаимоотношениями с клиентами]] (customer relationship management, CRM). | ||
- | Наиболее | + | Наиболее близкими к АКС направлениями являются [[коллаборативная фильтрация]] (collaborative filtering, CF) и [[анализ соответствий]] (correspondеnce analysis). |
АКС имеет два основных отличия: | АКС имеет два основных отличия: | ||
* АКС нацелен на получение взаимно согласованных оценок сходства клиентов и сервисов. Клиенты и сервисы рассматриваются как равноправные, двойственные сущности. Любой анализ, сделанный относительно клиентов, может быть путём «транспонирования» перенесён на сервисы, и наоборот. Методы коллаборативной фильтрации, особенно простые, не допускают такой двойственности. | * АКС нацелен на получение взаимно согласованных оценок сходства клиентов и сервисов. Клиенты и сервисы рассматриваются как равноправные, двойственные сущности. Любой анализ, сделанный относительно клиентов, может быть путём «транспонирования» перенесён на сервисы, и наоборот. Методы коллаборативной фильтрации, особенно простые, не допускают такой двойственности. | ||
- | * АКС рассматривает весь комплекс задач и методов, связанных с дальнейшим использованием полученных оценок сходства для визуализации, кластеризации, классификации и прогнозирования поведения клиентов | + | * АКС рассматривает весь комплекс задач и методов, связанных с дальнейшим использованием полученных оценок сходства для визуализации, кластеризации, классификации и прогнозирования поведения клиентов; в конечном итоге — для решения перечисленных выше бизнес-задач. Работы по коллаборативной фильтрации в большинстве случаев ограничиваются узкими постановками задач — предсказания рейтингов или формирования рекомендаций. |
== Примеры клиентских сред == | == Примеры клиентских сред == | ||
Строка 103: | Строка 103: | ||
== Основные принципы АКС == | == Основные принципы АКС == | ||
Технология АКС основана на вычислении количественных оценок сходства между сервисами и между клиентами. | Технология АКС основана на вычислении количественных оценок сходства между сервисами и между клиентами. | ||
+ | |||
Функция расстояния (метрика) на множестве клиентов позволяет решать задачи [[классификация|классификации]], [[кластеризация|кластеризации]], [[сегментация|сегментации]], поиска схожих клиентов, обнаружения необычного поведения клиентов. | Функция расстояния (метрика) на множестве клиентов позволяет решать задачи [[классификация|классификации]], [[кластеризация|кластеризации]], [[сегментация|сегментации]], поиска схожих клиентов, обнаружения необычного поведения клиентов. | ||
+ | |||
Метрика на множестве сервисов позволяет структурировать ассортимент, позиционировать сервисы, находить сопутствующие и взаимозаменяемые сервисы. | Метрика на множестве сервисов позволяет структурировать ассортимент, позиционировать сервисы, находить сопутствующие и взаимозаменяемые сервисы. | ||
+ | |||
При решении задач персонализации и направленного маркетинга приходится использовать обе метрики одновременно. | При решении задач персонализации и направленного маркетинга приходится использовать обе метрики одновременно. | ||
Строка 110: | Строка 113: | ||
В простейших случаях сходство сервисов можно оценить по принципу | В простейших случаях сходство сервисов можно оценить по принципу | ||
«сервисы схожи, если ими пользуются одни и те же клиенты; чем больше общих клиентов, тем более схожи сервисы». | «сервисы схожи, если ими пользуются одни и те же клиенты; чем больше общих клиентов, тем более схожи сервисы». | ||
- | Известно, например, что | + | Известно, например, что большинство пользователей [http://www.amazon.com Amazon.com] не упускают возможности узнать, |
«какие ещё книги покупают клиенты, купившие эту книгу». | «какие ещё книги покупают клиенты, купившие эту книгу». | ||
Однако данный принцип сходства имеет ограниченную сферу применимости, так как он выдвигает чрезмерно жёсткое требование, чтобы схожие сервисы имели одних и тех же ''общих клиентов'', тогда как вполне достаточно, чтобы они имели ''схожих клиентов''. Например, сайты двух конкурирующих производителей видеотехники могут иметь очень мало общих клиентов, тем не менее, они схожи как по тематике, так и по целевой аудитории. | Однако данный принцип сходства имеет ограниченную сферу применимости, так как он выдвигает чрезмерно жёсткое требование, чтобы схожие сервисы имели одних и тех же ''общих клиентов'', тогда как вполне достаточно, чтобы они имели ''схожих клиентов''. Например, сайты двух конкурирующих производителей видеотехники могут иметь очень мало общих клиентов, тем не менее, они схожи как по тематике, так и по целевой аудитории. | ||
Строка 117: | Строка 120: | ||
«сервисы схожи, если ими пользуются схожие (но не обязательно одни и те же) клиенты; в свою очередь, | «сервисы схожи, если ими пользуются схожие (но не обязательно одни и те же) клиенты; в свою очередь, | ||
клиенты схожи, если они пользуются схожими (но не обязательно одинаковыми) сервисами». | клиенты схожи, если они пользуются схожими (но не обязательно одинаковыми) сервисами». | ||
- | Этот принцип сложнее с точки зрения анализа данных, так как две меры сходства оказываются зависимыми друг от друга. Эффективная реализация этой идеи возможна путём выявления ''скрытых профилей'' и итеративного оценивания | + | Этот принцип сложнее с точки зрения анализа данных, так как две меры сходства оказываются зависимыми друг от друга. Эффективная реализация этой идеи возможна путём выявления ''скрытых профилей'' и итеративного оценивания сходства. |
=== Скрытые профили клиентов и сервисов === | === Скрытые профили клиентов и сервисов === | ||
Строка 124: | Строка 127: | ||
Иногда бывает доступна небольшая часть пользовательского профиля в виде социально-демографических характеристик, собираемых через анкету. | Иногда бывает доступна небольшая часть пользовательского профиля в виде социально-демографических характеристик, собираемых через анкету. | ||
- | Анкета | + | Анкета может содержать такие атрибуты, как возраст, пол, город, образование, семейное положение, профессию, достаток, сферы интересов, и т. п. |
Качество анкетных данных, как правило, невысоко: они неточны, субъективны, содержат много пропусков и собираются лишь по части клиентов. | Качество анкетных данных, как правило, невысоко: они неточны, субъективны, содержат много пропусков и собираются лишь по части клиентов. | ||
Строка 134: | Строка 137: | ||
Например, если речь идёт о товарах, то это производитель, стоимость, потребительские качества, и т. д. | Например, если речь идёт о товарах, то это производитель, стоимость, потребительские качества, и т. д. | ||
Эти данные вводятся либо экспертами, либо путём автоматической обработки текстовых описаний товаров. | Эти данные вводятся либо экспертами, либо путём автоматической обработки текстовых описаний товаров. | ||
- | Данные о сервисах также могут быть неточными, | + | Данные о сервисах также могут быть неточными, неполными и субъективными. |
- | Основная задача заключается в том, чтобы восстановить скрытые профили клиентов и сервисов на основе наблюдаемых косвенных данных — протоколов действий клиентов и | + | Основная задача заключается в том, чтобы восстановить скрытые профили клиентов и сервисов на основе наблюдаемых косвенных данных — протоколов действий клиентов и дополнительной информации о части клиентов и сервисов, заданной в виде частично заполненных профилей. |
=== Унифицированный скрытый профиль === | === Унифицированный скрытый профиль === | ||
Строка 167: | Строка 170: | ||
Иногда требуется построить профиль группы клиентов (например, чтобы сделать одинаковое направленное предложение целому сегменту клиентов) или группы сервисов (например, чтобы объединить схожие сервисы при автоматическом построении рубрикатора). | Иногда требуется построить профиль группы клиентов (например, чтобы сделать одинаковое направленное предложение целому сегменту клиентов) или группы сервисов (например, чтобы объединить схожие сервисы при автоматическом построении рубрикатора). | ||
В этих случаях профили приходится агрегировать. | В этих случаях профили приходится агрегировать. | ||
- | Агрегирование не сводится к простому усреднению профилей. | + | Агрегирование не сводится к простому усреднению уже готовых профилей. |
Агрегированный профиль строится путём восстановления скрытых профилей по данным, в которых все клиенты (или сервисы) заданной группы помечены одним идентификатором, то есть рассматриваются как один клиент (сервис). | Агрегированный профиль строится путём восстановления скрытых профилей по данным, в которых все клиенты (или сервисы) заданной группы помечены одним идентификатором, то есть рассматриваются как один клиент (сервис). | ||
Для одновременного построения всех агрегированных профилей используется специальный иерархический вариант EM-алгоритма. | Для одновременного построения всех агрегированных профилей используется специальный иерархический вариант EM-алгоритма. | ||
- | === | + | === Ситуативные проекции профилей === |
- | + | Когда профили построены, решение широкого спектра бизнес-задач становится относительно простым делом. | |
Основной операцией является поиск множества профилей (клиентов или сервисов), схожих с заданным профилем, соотвествующим клиенту, сервису, или группе клиентов или сервисов. | Основной операцией является поиск множества профилей (клиентов или сервисов), схожих с заданным профилем, соотвествующим клиенту, сервису, или группе клиентов или сервисов. | ||
- | + | Способ сравнения профилей зависит от решаемой задачи. | |
- | + | Во многих случаях достаточно сравнивать только определённые фрагменты профилей. | |
- | + | Это позволяет локализовать поиск и избежать проблемы «[[проклятие размерности|проклятия размерности]]». | |
- | Это позволяет | + | |
Примеры: | Примеры: | ||
* При поиске сервисов, интересных данному пользователю, учитываются только те компоненты профиля, которые для данного пользователя оценены как ненулевые. | * При поиске сервисов, интересных данному пользователю, учитываются только те компоненты профиля, которые для данного пользователя оценены как ненулевые. | ||
- | * При поиске сервисов, интересных данному пользователю в данный момент времени, учитываются только те компоненты профиля, которые для данного пользователя оценены как ненулевые по данным о его последних посещениях. | + | * При поиске сервисов, интересных данному пользователю ''в данный момент времени'', учитываются только те компоненты профиля, которые для данного пользователя оценены как ненулевые по данным о его ''последних посещениях''. |
* При поиске сервисов, связанных с данным сервисом, учитываются только те компоненты профиля, которые для данного сервиса оценены как ненулевые. | * При поиске сервисов, связанных с данным сервисом, учитываются только те компоненты профиля, которые для данного сервиса оценены как ненулевые. | ||
- | * При поиске клиентов, похожих на данного клиента (like-minded people), учитывается относительная мощность пересечения множеств ненулевых компонент пары клиентов. | + | * При поиске клиентов, похожих на данного клиента (like-minded people), учитывается относительная мощность пересечения множеств ненулевых компонент профилей у пары клиентов. |
+ | |||
+ | === Динамичность === | ||
+ | В практических приложениях все методы построения и сравнения профилей должны работать в условиях, когда исходные данные — протоколы действий клиентов — постоянно пополняются. Это, в частности, означает следующее. | ||
+ | * Профили эффективно пересчитываются при поступлении новых порций данных. | ||
+ | * Алгоритмы построения иерархических профилей сами обнаруживают моменты времени, когда накапливается достаточное количество данных, чтобы расщепить компоненту профиля, образовав дочерние компоненты в иерархии. | ||
+ | * Недавняя краткосрочная активность клиента может вытеснять более старую долгосрочную (особенно, если речь идёт о потребительском поведении). Профили краткосрочной активности «забываются» быстрее, чем профили долгосрочной. | ||
== Компоненты технологии АКС == | == Компоненты технологии АКС == | ||
Строка 196: | Строка 204: | ||
== Литература == | == Литература == | ||
- | == | + | == См. также == |
+ | * [[Коллаборативная фильтрация]] | ||
+ | * [[Полигон алгоритмов коллаборативной фильтрации]] | ||
* [[Анализ клиентских сред и коллаборативная фильтрация (виртуальный семинар)]] | * [[Анализ клиентских сред и коллаборативная фильтрация (виртуальный семинар)]] | ||
- | + | == Ссылки == | |
+ | * [http://www.forecsys.com/ru/site/tech/cea/ Технология анализа клиентских сред] (сайт [[Форексис]]) | ||
+ | * ''[[Участник:Vokov|Воронцов К. В.]]'' Методы коллаборативной фильтрации и их применение. Выступление на семинаре Б.Г.Миркина, 10 ноября 2008, [[Высшая школа экономики|ВШЭ]]'''. [[Media:Voron-2008-11-10-cf.pdf|(PDF, 1083 КБ)]]'''. | ||
+ | * [http://ict.ewi.tudelft.nl/~jun/CollaborativeFiltering.html Collaborative Filtering Resources] (Dr.Jun Wang) | ||
+ | * [http://jamesthornton.com/cf/ Collaborative Filtering Research Papers] (James Thornton) | ||
+ | * [http://en.wikipedia.org/wiki/Collaborative_Filtering Википедия] | ||
+ | |||
[[Категория:Интеллектуальный анализ данных]] | [[Категория:Интеллектуальный анализ данных]] | ||
[[Категория:Популярные и обзорные статьи]] | [[Категория:Популярные и обзорные статьи]] | ||
[[Категория:Энциклопедия анализа данных]] | [[Категория:Энциклопедия анализа данных]] | ||
[[Категория:Коллаборативная фильтрация]] | [[Категория:Коллаборативная фильтрация]] |
Текущая версия
|
Клиентская среда — это совокупность клиентов (пользователей, cубъектов), регулярно пользующихся фиксированным набором сервисов (товаров, ресурсов, предметов, объектов). Предполагается, что действия клиентов протоколируются в электронном виде. Примерами действий являются: использование сервиса или покупка товара, оценивание (рейтингование) сервиса или товара, обращение за информацией, оплата услуг, выбор тарифного плана, участие в маркетинговой акции, получение бонуса от компании, отказ от обслуживания, и т. д.
Анализ клиентских сред, АКС (customer environment analysis, CEA) — это технология обработки протоколов действий клиентов, позволяющая эффективно вычислять взаимно согласованные оценки сходства клиентов и сервисов, и использовать их для решения таких бизнес-задач, как автоматизация маркетинговых исследований, формирование направленных предложений клиентам, персонализация сервисов, повышение удовлетворённости и лояльности клиентов, более эффективное привлечение и удержание клиентов.
Концепция клиентской среды предложена чл.-корр. РАН К. В. Рудаковым в конце 90-х. На её основе компанией Форексис развивается технология анализа клиентских сред.
Технология АКС может быть использована для построения рекомендующих систем (recommender system), персонализации предложений (targeting, direct marketing), и управления взаимоотношениями с клиентами (customer relationship management, CRM).
Наиболее близкими к АКС направлениями являются коллаборативная фильтрация (collaborative filtering, CF) и анализ соответствий (correspondеnce analysis). АКС имеет два основных отличия:
- АКС нацелен на получение взаимно согласованных оценок сходства клиентов и сервисов. Клиенты и сервисы рассматриваются как равноправные, двойственные сущности. Любой анализ, сделанный относительно клиентов, может быть путём «транспонирования» перенесён на сервисы, и наоборот. Методы коллаборативной фильтрации, особенно простые, не допускают такой двойственности.
- АКС рассматривает весь комплекс задач и методов, связанных с дальнейшим использованием полученных оценок сходства для визуализации, кластеризации, классификации и прогнозирования поведения клиентов; в конечном итоге — для решения перечисленных выше бизнес-задач. Работы по коллаборативной фильтрации в большинстве случаев ограничиваются узкими постановками задач — предсказания рейтингов или формирования рекомендаций.
Примеры клиентских сред
Клиентские среды возникают в самых разных сферах бизнеса, и не только бизнеса. Можно говорить о клиентских средах производителей товаров, дилерских сетей, сетей супермаркетов, операторов связи, эмитентов пластиковых карт, библиотек, интернет-магазинов, поисковых машин, социальных сетей, форумов, блогов и т. д.
Возможны и такие приложения АКС, в которых сами термины «клиенты» и «сервисы» едва ли применимы, например анализ текстов или анализ результатов парламентских выборов. Однако математические методы обработки данных остаются теми же.
Торговые сети
«Сервисами» являются товары, «клиентами» — постоянные покупатели, имеющие дисконтную карту. Действия клиентов — это покупки товаров.
Примеры задач:
- Сделать клиенту направленное предложение тех товаров, которые ему с большой вероятностью понравятся. Персональное предложение может печататься с обратной стороны чека или выводиться на специальном терминале по запросу клиента.
- Вовремя подсказать клиенту, где находится новый товар, о котором ещё мало кто знает, но который с большой вероятностью заинтересует данного клиента.
Операторы сотовой связи
«Сервисами» являются различные услуги (типы соединений), «клиентами» — абоненты сети. Действия клиентов — это звонки различных типов (входящие, исходящие, междугородние, международные, SMS, MMS, и т. д.), платежи, подключения и отключения услуг, смены тарифных планов, обращения в сервисный центр, и т. д.
Примеры задач:
- Прогнозирование ухода клиентов (churn prediction), на основе сходства с уже ушедшими клиентами.
- Сегментация клиентской базы, выделение целевых групп клиентов.
- Выявление схожих услуг при формировании пакетных предложений.
- Выявление необычного или потенциально опасного поведения клиентов (fraud detection).
Интернет-магазины книжной, аудио и видео продукции
«Сервисами» являются товары (книги, диски, фильмы, и т. д.), «клиентами» — постоянные покупатели. Действия клиентов — это либо покупки товаров, либо оценки (рейтинги) товаров.
Примеры задач:
- Предсказать рейтинги товаров для данного пользователя и предложить ему список товаров, наиболее интересных для него.
- Предложить персональную скидку на совместную покупку нескольких товаров (cross-selling).
- Вовремя информировать клиента о появлении новых интересных для него товаров (up-selling).
Поисковые машины
«Сервисы» — это страницы или документы, предлагаемые в качестве результатов поиска, «клиенты» — пользователи поисковой машины. Действия клиентов — это переходы со страницы результатов поиска к найденному документу. В данном приложении технология АКС примыкает к анализу веба (web mining), точнее, к анализу поведения пользователей веба (web usage mining).
Примеры задач:
- Ранжировать результаты поиска в таком порядке, чтобы в начале списка оказались документы, с большой вероятностью интересные для данного пользователя.
- Разместить на странице таргетированную рекламу, предлагая данному пользователю посетить сайты, с большой вероятностью интересные именно ему, именно в данный момент.
- Найти для данного сайта список наиболее близких к нему сайтов (например, для автоматической генерации страницы полезных ссылок).
- Найти для данного сайта список сайтов, наиболее близких к нему относительно данного пользователя (для автоматической генерации персонализированного списка рекомендуемых ссылок).
Парламентские выборы
Здесь в роли «сервисов» выступают политические партии, «клиентами» являются субъекты федерации, территориальные избирательные округа или избирательные участки. «Действия клиента» — это голоса избирателей, отданные партиям.
Задачи связаны в основном с интерпретацией результатов выборов:
- Отранжировать партии по сходству относительно любой заданной партии.
- Отранжировать регионы по сходству относительно любого заданного региона.
- Понять и визуализировать (например, с помощью карты сходства) политический спектр партий.
- Выделить схожие партии, «перетягивающие» голоса друг у друга.
- Выделить регионы, в которых данная партия могла бы перетянуть голоса у других партий.
Анализ текстов
В данном случае «сервисами» являются ключевые слова или выражения, «клиентами» — тексты. «Действие клиента» соответствует тому, что данное ключевое слово встречается в данном тексте.
Примеры задач:
- Автоматическая классификация и рубрикации больших объемов текстовых документов или новостных потоков.
- Поиск документов по сходству с данным документом.
- Поиск наиболее полных и релевантных документов по данной теме.
Социальные сети
В простейшем случае «сервисами» являются страницы (записи в блоге, личные страницы пользователей, разделы форума), «клиентами» — пользователи социального сервиса. Действия клиента — посещение страницы, просмотр сообщений, создание собственных сообщений, добавление/удаление друзей, и т. д. Социальные сети являются более сложным примером клиентской среды, поскольку в них приходится применять анализ текстовой информации. В общем случае имеется уже не два типа взаимосвязных сущностей (клиенты и сервисы), а три: пользователи, страницы и ключевые слова.
Примеры задач:
- Персональное предложение интересных для данного пользователя страниц, форумов, контактов.
- Автоматическая персонализированная классификация и рубрикация страниц, форумов, контактов.
- Поиск единомышленников (like-minded people), похожих людей (neighbours).
Основные принципы АКС
Технология АКС основана на вычислении количественных оценок сходства между сервисами и между клиентами.
Функция расстояния (метрика) на множестве клиентов позволяет решать задачи классификации, кластеризации, сегментации, поиска схожих клиентов, обнаружения необычного поведения клиентов.
Метрика на множестве сервисов позволяет структурировать ассортимент, позиционировать сервисы, находить сопутствующие и взаимозаменяемые сервисы.
При решении задач персонализации и направленного маркетинга приходится использовать обе метрики одновременно.
Взаимосогласованные оценки сходства клиентов и сервисов
В простейших случаях сходство сервисов можно оценить по принципу «сервисы схожи, если ими пользуются одни и те же клиенты; чем больше общих клиентов, тем более схожи сервисы». Известно, например, что большинство пользователей Amazon.com не упускают возможности узнать, «какие ещё книги покупают клиенты, купившие эту книгу». Однако данный принцип сходства имеет ограниченную сферу применимости, так как он выдвигает чрезмерно жёсткое требование, чтобы схожие сервисы имели одних и тех же общих клиентов, тогда как вполне достаточно, чтобы они имели схожих клиентов. Например, сайты двух конкурирующих производителей видеотехники могут иметь очень мало общих клиентов, тем не менее, они схожи как по тематике, так и по целевой аудитории.
Более адекватные результаты даёт усовершенствованный принцип сходства: «сервисы схожи, если ими пользуются схожие (но не обязательно одни и те же) клиенты; в свою очередь, клиенты схожи, если они пользуются схожими (но не обязательно одинаковыми) сервисами». Этот принцип сложнее с точки зрения анализа данных, так как две меры сходства оказываются зависимыми друг от друга. Эффективная реализация этой идеи возможна путём выявления скрытых профилей и итеративного оценивания сходства.
Скрытые профили клиентов и сервисов
Действия клиента являются проявлением его предпочтений, вкусов, привычек (taste). Предполагается, что существует скрытый профиль клиента — вектор, координаты которого соответствуют всевозможным предпочтениям; значение координаты есть относительная важность данного предпочтения для данного клиента.
Иногда бывает доступна небольшая часть пользовательского профиля в виде социально-демографических характеристик, собираемых через анкету. Анкета может содержать такие атрибуты, как возраст, пол, город, образование, семейное положение, профессию, достаток, сферы интересов, и т. п. Качество анкетных данных, как правило, невысоко: они неточны, субъективны, содержат много пропусков и собираются лишь по части клиентов.
С другой стороны, каждый сервис также имеет свой скрытый профиль — это набор предпочтений, которые он способен удовлетворить. В некоторых случаях и здесь можно рассчитывать на наличие дополнительных данных. Во-первых, это каталоги сервисов, которые для удобства представляются в виде иерархии разделов или тем. Эта иерархия отражает структуру пользовательских предпочтений и образует тематическую часть профиля. Во-вторых, иногда бывают доступны некоторые атрибуты сервисов. Например, если речь идёт о товарах, то это производитель, стоимость, потребительские качества, и т. д. Эти данные вводятся либо экспертами, либо путём автоматической обработки текстовых описаний товаров. Данные о сервисах также могут быть неточными, неполными и субъективными.
Основная задача заключается в том, чтобы восстановить скрытые профили клиентов и сервисов на основе наблюдаемых косвенных данных — протоколов действий клиентов и дополнительной информации о части клиентов и сервисов, заданной в виде частично заполненных профилей.
Унифицированный скрытый профиль
В результате огромного количества отдельных выборов сервисы и клиенты перенимают атрибуты друг друга. Например, атрибут «возраст» на первый взгляд принадлежит исключительно клиентам. Однако сервисы, часто выбираемые клиентами от 15 до 25 лет, также приобретают этот атрибут и характеризуются как «молодёжные». С другой стороны, атрибут «классическая музыка», первоначально характеризующий положение музыкальных дисков в тематическом каталоге, переносится на тех пользователей, которые часто заказывают такие диски или прослушивают такие mp3-файлы.
Объединение атрибутов клиентов и сервисов в единый унифицированный профиль даёт ряд важных преимуществ:
- появляется возможность интерпретировать любой сервис или группу сревисов, а также любого клиента или группу клиентов в терминах, понятных маркетологам;
- можно сравнивать не только клиентов с клиентами и сервисы с сервисами, но и клиентов с сервисами;
- можно проводить сравнение по «частичному» профилю; например, сравнивать клиентов относительно заданного сервиса (группы сервисов) или сравнивать сервисы относительно заданного клиента (группы клиентов);
- можно отказаться от хранения огромных объёмов сырых исходных данных и строить масштабируемые решения, выбирая размер хранимых профилей; в частности, тематический каталог может быть усечён на любом уровне иерархии;
- обновление профилей не требует громоздких вычислений и может происходить в режиме реального времени;
- достаточно лишь небольшого объёма данных о клиенте, чтобы восстановить его профиль; это достигается благодаря привлечению информации не только о данном клиенте, но и о схожих с ним клиентах;
- профиль сервиса может быть построен априори, на основе его рубрикации или атрибутов, присвоенных экспертами; это снимает проблему «холодного старта» (‘cold start’ problem), когда новый сервис не предлагается из-за того, что он ещё никем не был выбран, и никем не выбирается из-за того, что он ещё никому не предлагался.
Итерационное согласование профилей клиентов и сервисов
Унифицированные скрытые профили клиентов и сервисов восстанавливаются по исходным протоколам действий клиентов. При этом известные части профилей некоторых клиентов и некоторых сервисов играют роль начального приближения. Вполне допустимо, чтобы качество этой информации было относительно низким, так как в дальнейшем она корректируется объективными данными, содержащимися в протоколах. С другой стороны, эта информация задаёт структуру унифицированного профиля и предопределяет интерпретацию его компонент.
Для восстановления скрытых профилей используются итерационные методы типа EM-алгоритма (expectation-maximization). Знание скрытых профилей сервисов позволяет оценить профили клиентов; и, наоборот, знание профилей клиентов позволяет оценить профили сервисов. На этом принципе и основаны итерационные методы взаимного согласования скрытых профилей.
Агрегирование профилей
Иногда требуется построить профиль группы клиентов (например, чтобы сделать одинаковое направленное предложение целому сегменту клиентов) или группы сервисов (например, чтобы объединить схожие сервисы при автоматическом построении рубрикатора). В этих случаях профили приходится агрегировать. Агрегирование не сводится к простому усреднению уже готовых профилей. Агрегированный профиль строится путём восстановления скрытых профилей по данным, в которых все клиенты (или сервисы) заданной группы помечены одним идентификатором, то есть рассматриваются как один клиент (сервис). Для одновременного построения всех агрегированных профилей используется специальный иерархический вариант EM-алгоритма.
Ситуативные проекции профилей
Когда профили построены, решение широкого спектра бизнес-задач становится относительно простым делом. Основной операцией является поиск множества профилей (клиентов или сервисов), схожих с заданным профилем, соотвествующим клиенту, сервису, или группе клиентов или сервисов. Способ сравнения профилей зависит от решаемой задачи. Во многих случаях достаточно сравнивать только определённые фрагменты профилей. Это позволяет локализовать поиск и избежать проблемы «проклятия размерности».
Примеры:
- При поиске сервисов, интересных данному пользователю, учитываются только те компоненты профиля, которые для данного пользователя оценены как ненулевые.
- При поиске сервисов, интересных данному пользователю в данный момент времени, учитываются только те компоненты профиля, которые для данного пользователя оценены как ненулевые по данным о его последних посещениях.
- При поиске сервисов, связанных с данным сервисом, учитываются только те компоненты профиля, которые для данного сервиса оценены как ненулевые.
- При поиске клиентов, похожих на данного клиента (like-minded people), учитывается относительная мощность пересечения множеств ненулевых компонент профилей у пары клиентов.
Динамичность
В практических приложениях все методы построения и сравнения профилей должны работать в условиях, когда исходные данные — протоколы действий клиентов — постоянно пополняются. Это, в частности, означает следующее.
- Профили эффективно пересчитываются при поступлении новых порций данных.
- Алгоритмы построения иерархических профилей сами обнаруживают моменты времени, когда накапливается достаточное количество данных, чтобы расщепить компоненту профиля, образовав дочерние компоненты в иерархии.
- Недавняя краткосрочная активность клиента может вытеснять более старую долгосрочную (особенно, если речь идёт о потребительском поведении). Профили краткосрочной активности «забываются» быстрее, чем профили долгосрочной.
Компоненты технологии АКС
- Коллаборативная фильтрация
- EM-алгоритм
- Метрический классификатор
- Иерархическая кластеризация
- Многомерное шкалирование
- Карта сходства
Литература
См. также
- Коллаборативная фильтрация
- Полигон алгоритмов коллаборативной фильтрации
- Анализ клиентских сред и коллаборативная фильтрация (виртуальный семинар)
Ссылки
- Технология анализа клиентских сред (сайт Форексис)
- Воронцов К. В. Методы коллаборативной фильтрации и их применение. Выступление на семинаре Б.Г.Миркина, 10 ноября 2008, ВШЭ. (PDF, 1083 КБ).
- Collaborative Filtering Resources (Dr.Jun Wang)
- Collaborative Filtering Research Papers (James Thornton)
- Википедия