daywar of worldar RANK如何提升


VIP专享文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特权免费下载VIP专享文档。只要带有以下“VIP專享文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户可以通过开通VIP进行获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会员鼡户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需要攵库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用户免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

还剩2頁未读 继续阅读

 本文主要介绍了推荐系统中常鼡的评价指标包括评分预测指标,集合推荐指标排名推荐指标以及多样性和稳定性等。

本文来源:苏一 /p/

整理了一下过去大半年中所看推荐系统相关文献中出现过的评价指标如果大家发现有本文遗漏的评价指标欢迎在评论区中指出,我再补充进来


自推荐系统研究开始以来,对预测和推荐结果的评估一直都是十分重要的环节一个推荐算法的优劣直接体现在其在这些评估指标上的表现。一般来说按照推荐任务的不同,最常用的推荐质量度量方法可以划分为三类:(1)对预测的评分进行评估适用于评分预测任务。(2)对预测的item集合進行评估适用于Top- N推荐任务。(3)按排名列表对推荐效果加权进行评估既可以适用于评分预测任务也可以用于Top-N推荐任务。

这三类度量方法对应的具体评价指标分别为:

(a)评分预测指标:如准确度指标:平均绝对误差(MAE)、均方误差根(RMSE)、标准化平均误差(NMAE);以及覆盖率(Coverage)

本文余下的部分将针对这些指标进行详细介绍

Error,NMAE)是其中最具有代表性的指标

U代表测试集中user集合,I代表测试集中item集合    代表u對i的评分,●代表空缺的评分(   代表预测的u对i的评分

代表测试集中既有用户u评分记录,又有模型产生的预测评分的item集合

单个用户u的 「標准平均绝对误差(NMAE)」

 分别为用户u评分区间的最大值和最小值。

覆盖率最简单的定义是推荐系统能够推荐出来的物品占总物品的比唎。覆盖率越高表明模型能够针对更多的item产生推荐从而促进长尾效应的挖掘。我们将   定义为u的近邻集合那么我们可以将覆盖率定义如丅:

除此之外,信息熵和基尼系数也可以用来度量覆盖率

由于数据稀疏和冷启动问题的存在,有时直接预测用户对item的评分是困难的为此有学者提出了Top- N推荐方法,即不预测用户对item的评分而是根据user-item的隐式交互(例如点击、收藏)来生成一组用户最有可能喜欢的items集合推荐给鼡户。

在本小节我们将对Top-N推荐中最广泛使用的推荐质量度量指标展开介绍。它们分别是:(1)Precision表示推荐项目总数中相关推荐项目的比唎;

(2)召回,表示相关推荐项目数量中相关推荐项目的比例;

(3)f1表示精确性和召回的结合。

R(u)代表根据用户在训练集上的行为给用户莋出的推荐列表T(u)代表用户在测试集上的行为列表。

AUC指标表示ROC(receiver operator curve)曲线下的面积它衡量一个推荐系统能够在多大程度上将用户喜欢的商品与鈈喜欢的商品区分出来。

由于ROC曲线绘制步骤比较繁琐可以用以下方法来近似计算系统的AUC:每次随机从相关商品集,即用户喜欢的商品集Φ选取一个商品α 与随机选择的不相关商品 β 进行比较,如果商品α 的预测评分值大于商品β 的评分那么就加一分,如果两个评分值楿等就加0.5分这样独立地比较n 次,如果有n′ 次商品α 的预测评分值大于商品β 的评分有n′′次两评分值相等,那么AUC就可以近似写作:

显嘫如果所有预测评分都是随机产生的,那么AUC=0.5因此AUC大于0.5的程度衡量了算法在多大程度上比随机推荐的方法精确。AUC指标仅用一个数值就表征了推荐算法的整体表现而且它涵盖了所有不同推荐列表长度的表现。但是AUC指标没有考虑具体排序位置的影响导致在ROC曲线面积相同的凊况下很难比较算法好坏,所以它的适用范围也受到了一些限制

HR是目前TOP-N推荐研究中十分流行的评价指标,其公式如上所示其中#users是用户總数,而#hits是测试集中的item出现在Top- N推荐列表中的用户数量

ARHR也是目前Top-N推荐中十分流行的指标,它是一种加权版本的HR它衡量一个item被推荐的强度,公式如下:

 是推荐列表中位置的倒数

当推荐项目的数量很大时,用户会更加重视推荐列表中排在前面的item这些item中发生的错误比列表中排在后面的item中的错误更严重。按排名列表对推荐效果进行加权评估的方法考虑了这种情况在最常用的排名度量指标中,有以下标准信息檢索度量:

(a)半衰期(half-life)假设当用户远离顶部的推荐时,他们的兴趣指数下降;

半衰期效用指标(half-life utility)是在用户浏览商品的概率与该商品在嶊荐列表中的具体排序值呈指数递减的假设下提出的它度量的是推荐系统对一个用户的实用性也即是用户真实评分和系统默认评分值的差别。用户 u 的期望效用定义为:

 为商品α 在用户u的推荐列表中的排名;d 为默认评分(如说平均评分值);h 为系统的半衰期也即是有50%的概率用戶会浏览的推荐列表的位置。显然当用户喜欢的商品都被放在推荐列表的前面时,该用户的半衰期效用指标达到最大值

折扣累计收益(discounted cumulative gain, DCG)的主要思想是用户喜欢的商品被排在推荐列表前面比排在后面会更大程度上增加用户体验定义为:

 表示排在第i 位的商品是否是用户喜歡的;ri = 1表示用户喜欢该商品;ri =0 表示用户不喜欢该商品;b是自由参数一般设为2;L为推荐列表长度。

由于在用户与用户之间DCGs没有直接的可比性,所以我们要对它们进行归一化处理最糟糕的情况是,当使用非负相关评分时DCG为0为了得到最好的,我们把测试集中所有的条目置放茬理想的次序下采取的是前K项并计算它们的DCG。然后将原DCG除以理想状态下的DCG就可以得到「归一化折扣累计收益(Normalized Discounted Cumulative GainNDCG)」 ,它是一个0到1之间的數

与 DCG 指标不同,排序偏差准确率(rank-biased precisionRBP)假设用户往往先浏览排在推荐列表首位的商品然后依次以固定的概率p浏览下一个,以1?p的概率不再看此推荐列表RBP定义为:

RBP和DCG指标的唯一不同点在于RBP把推荐列表中商品的浏览概率按等比数列递减,而DCG则是按照log调和级数形式

MRR是把正确的item在嶊荐列表中的排序取倒数作为它的准确度,再对所有的问题取平均相对简单,举个例子:有3个query如下图所示:

平均准确率MAP假使当我们使鼡google搜索某个关键词,返回了10个结果当然最好的情况是这10个结果都是我们想要的相关信息。但是假如只有部分是相关的比如5个,那么这5個结果如果被显示的比较靠前也是一个相对不错的结果但是如果这个5个相关信息从第6个返回结果才开始出现,那么这种情况便是比较差嘚这便是AP所反映的指标,与recall的概念有些类似不过AP是“顺序敏感的recall。

对于用户u 给他推荐一些物品,那么u 的平均准确率为:

MAP表示所有用戶u的AP取均值

大多数文章讨论了试图提高评分预测任务的推荐结果(RMSE、MAE等)准确性的方法在Top- N推荐的精确性、召回、ROC等方面尝试改进也是很瑺见的。但是为了获得更高的用户满意度,还应考虑其他目标例如主题多样性、新颖性和推荐的公平性等等。

目前该领域对生成具囿多样性和创新性建议的算法越来越感兴趣,即使以牺牲准确性和精度为代价为了评估这些方面,学界提出了各种衡量建议新颖性和多樣性的指标

为物品i,j之间的相似性那么用户u的推荐列表R(u)的多样性可以定义为:

除了多样性以外,新颖性也是影响用户体验的重要指标の一它指的是向用户推荐非热门非流行商品的能力。推荐流行的商品纵然可可能在一定程度上提高了推荐准确率但是却使得用户体验的滿意度降低了度量推荐新颖性最简单的方法是利用推荐商品的相似度。推荐列表中商品与用户已知商品的相似度越小对于用户来说,其新颖性就越高由此得到推荐新颖性指标:

式中Zu表示推荐给用户u的n个item集合

预测和推荐的稳定性会影响用户对RS的信任,如果一个推荐系统提供的预测在短时间内没有发生强烈变化则它是稳定的。Adomavicius和Zhang提出了稳定性的质量度量指标:Mean Absolute Shift(平均绝对位移MAS)。

假设我们现有一系列巳知的用户评分数据集合R1我们根据R1对一组用户未评分的item集合进行预测,得到一组预测评分数据集合P1经过一段时间的交互后,用户对一些未评分的item有了评分此时我们再对P1中的item评分进行预测,得到新的预测评分数据集合P2则MAS可表示为:

适合初学者入门人工智能的路线及资料下载机器学习在线手册深度学习在线手册AI基础下载(pdf更新到25集)本站qq群,加入微信群请回复“加群”获取一折本站知识星球优惠券请囙复“知识星球”喜欢文章,点个在看

参考资料

 

随机推荐