书接上文
显式数据: 用户的评分,like or unlike等
隐式数据: 用户点击,购买记录,在某个页面停留时间,播放次数等
调整的余弦相似度:
, 对于用户每个评分都要减去该用户平均评分作为他的最终评分,然后计算相似度
:
解释是一个物品别人的评分比另一个物品高,那给你的预测也是如此。
分两步:第一步,算出所有物品两两之间的偏差(deviation)。 第二步,做出预测,比如你评分A为3分,而B物品评分比A高一分,所以预测你对B物品的评分是4分。
第一步计算的公式是
用户对j物品的评分减去i物品的评分之和 除以对这两物品评分的用户总数。
card(Sj,i(X)) 是同时给物品j, i评分的人数
第二步预测公式,加权Slope one:
ui 是用户u对i物品的评分
devj,i 是物品j与物品i之间的偏差(这在第一步算过)
cj,i 是计算物品i, j偏差时,参与的人数 即第一步的card(Sj,i(X))