Анализ алгоритмов обучения коллаборативных рекомендательных систем

Д.Е. Королева, М.В. Филиппов

2

ные о музыке — автор, стиль, дата, тэги и т. п.

Pandora

основывается

на «содержании» музыкальной композиции, используя очень инте-

ресную идею — Music Genome Project, в котором профессиональные

музыканты анализируют композицию по нескольким сотням атрибу-

тов (в России

Pandora

сейчас недоступна);

•

Google

,

Yahoo!

,

Яндекс

— можно сказать, что они тоже реко-

мендуют пользователям сайты, но на самом деле это другие системы:

поисковики пытаются предсказать, насколько данный документ от-

вечает данному запросу, а рекомендатели — какой рейтинг данный

пользователь поставит данному продукту. Несколько ближе к нашей

задаче проблема того, какую рекламу показывать пользователю

(

AdSense

,

Яндекс.Директ

и т. д.) — здесь нужно «порекомендовать»

те из них, которые, скорее всего, вызовут положительную реакцию.

Однако у ведущих поисковиков есть масса побочных проектов, осно-

ванных на рекомендательных системах — например,

Yahoo! Music

.

Большинство коллаборативных рекомендательных систем ис-

пользует алгоритм Байеса или алгоритм SVD (или SVD++). Но оба

эти алгоритма требуют большой обучающей выборки. В настоящей

работе будет проведен их сравнительный анализ, а также предложен

альтернативный алгоритм, не требующий больших обучающих вы-

борок. Сравнение проводилось по критериям правильности рекомен-

дации и быстродействия.

Описание алгоритмов.

Алгоритм Байеса.

Теорема Байеса [4] —

одна из основных теорем элементарной теории вероятностей, которая

определяет вероятность наступления события в условиях, когда на

основе наблюдений известна лишь некоторая частичная информация

о событиях.

Условная вероятность события

x

при условии события

y

обозна-

чается

p

(

x

|

y

). Согласно теории вероятностей

( , )

( )

p x y

p y

=

,

где

p

(

x

,

y

) — это совместная вероятность событий

x

и

y

, а

p

(

x

) и

p

(

y

) — вероятности каждого события по отдельности. Таким обра-

зом, совместную вероятность можно выразить двумя способами:

( , )

( ) ( )

p x y p x y p y p y x p x

=

.

По теореме Байеса условная вероятность

p

(

x

|

y

) определяется сле-

дующим выражением [4]:

( ) ( )

( )

p y x p x

p x y p

p y

=

.

Анализ алгоритмов обучения коллаборативных рекомендательных систем - page 2

Warning.