Полигон алгоритмов коллаборативной фильтрации

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Функциональные возможности системы

Полигон должен:

  • работать с набором реализаций алгоритмов CF
  • предоставлять данные на вход алгоритмам в стандартизованном виде
  • обрабатывать результаты работы и генерировать отчеты

Варианты постановок задач

Конкретныe прикладные задачи с данными

Netflix Prize
NetflixPrize.com, (данные)
480,000 пользователей
17,770 объектов
100,480,507 оценок
1.23% заполненность
Jester dataset
Anonymous Ratings from the Jester Online Joke Recommender System
  • 73,421 пользователей
    100 объектов
    ~4.1 миллиона оценок
    54.5% заполненность
  • 63,974 пользователей
    150 объектов
    ~1.7 миллионов оценок
    17.7% заполненность
MovieLens datasets
  • 100,000 ratings for 1682 movies by 943 users
  • 1 million ratings for 3900 movies by 6040 users
  • 10 million ratings and 100,000 tags for 10681 movies by 71567 users
LibimSeTi dating agency dataset
135,359 пользователей
168,791 объектов
17,359,346 оценок
0.76% заполненность
EachMovie dataset (supposed to be unavailable)
72,916 пользователей
1628 объектов
2,811,983 оценок
Neilsen Media Research dataset
Media Metrix
UC Irvine Census data

TODO: check TheInfo Infochimps

Генераторы модельных данных, под какие алгоритмы CF заточены

Оценка качества

Функционалы для оценки качества (это оччень скользский вопрос!)

Графики, которые позволят судить о качестве алгоритмов и сравнивать их

Графики, которые позволят следить за тем, что у конкретных алгоритмов происходит внутри,