Д.Е. Королева, М.В. Филиппов
2
ные о музыке — автор, стиль, дата, тэги и т. п.
Pandora
основывается
на «содержании» музыкальной композиции, используя очень инте-
ресную идею — Music Genome Project, в котором профессиональные
музыканты анализируют композицию по нескольким сотням атрибу-
тов (в России
Pandora
сейчас недоступна);
•
Google
,
Yahoo!
,
Яндекс
— можно сказать, что они тоже реко-
мендуют пользователям сайты, но на самом деле это другие системы:
поисковики пытаются предсказать, насколько данный документ от-
вечает данному запросу, а рекомендатели — какой рейтинг данный
пользователь поставит данному продукту. Несколько ближе к нашей
задаче проблема того, какую рекламу показывать пользователю
(
AdSense
,
Яндекс.Директ
и т. д.) — здесь нужно «порекомендовать»
те из них, которые, скорее всего, вызовут положительную реакцию.
Однако у ведущих поисковиков есть масса побочных проектов, осно-
ванных на рекомендательных системах — например,
Yahoo! Music
.
Большинство коллаборативных рекомендательных систем ис-
пользует алгоритм Байеса или алгоритм SVD (или SVD++). Но оба
эти алгоритма требуют большой обучающей выборки. В настоящей
работе будет проведен их сравнительный анализ, а также предложен
альтернативный алгоритм, не требующий больших обучающих вы-
борок. Сравнение проводилось по критериям правильности рекомен-
дации и быстродействия.
Описание алгоритмов.
Алгоритм Байеса.
Теорема Байеса [4] —
одна из основных теорем элементарной теории вероятностей, которая
определяет вероятность наступления события в условиях, когда на
основе наблюдений известна лишь некоторая частичная информация
о событиях.
Условная вероятность события
x
при условии события
y
обозна-
чается
p
(
x
|
y
). Согласно теории вероятностей
( , )
( )
( )
p x y
p x y
p y
=
,
где
p
(
x
,
y
) — это совместная вероятность событий
x
и
y
, а
p
(
x
) и
p
(
y
) — вероятности каждого события по отдельности. Таким обра-
зом, совместную вероятность можно выразить двумя способами:
( , )
( ) ( )
( ) ( )
p x y p x y p y p y x p x
=
=
.
По теореме Байеса условная вероятность
p
(
x
|
y
) определяется сле-
дующим выражением [4]:
( ) ( )
( )
( )
p y x p x
p x y p
p y
=
.