5wk金沙官网所以如果可以的话

当前位置:5wk金沙官网 > 5wk金沙官网 > 5wk金沙官网所以如果可以的话
作者: 5wk金沙官网|来源: http://www.mubasherkhan.com|栏目:5wk金沙官网

文章关键词:5wk金沙官网,采样系统

  本文对于推荐系统中的采样评估指标进行了讨论,内容略多, 还有一些数学推导, 有兴趣的可以去阅读文末给出的原始论文链接, 此处直接列出核心观点:

  除了AUC,Precision@K,Recall@K,Average Precision,NDCG都是不一致的,采样计算得到的结果和真实结果可能差很大!

  现在随机采样计算得到的评估指标的分数具有高偏差,低方差的问题,很多情况和真实情况不符合,结论可能也都错了!

  如果一定要进行采样计算评估指标的值, 建议采用本文提出的纠正的方案,虽然可能会有较大的方差,但是偏差大大降低,更加接近真实情况;

  因为本文实在是有些干,所以不想读文章的朋友直接记住下面两张PPT的内容就可以了。

  介绍我们目前常用的一些评估指标,包括AUC,Precision,Recall,AP,NDCG;

  然后讨论怎么样才算是好的采样评估指标(一致性),之后开始举例讨论现有的诸多指标例如Recall,Precision,AP等存在不一致性,也就是说采样之后计算的指标是不能反映真实情况的;

  为了能弥补现有的采样策略的问题,作者提出了三种不同的修正策略,并验证了其在采样评估的时候相较于原始采样策略的优势(更加接近于真实情况);

  这么做也就意味着我们对于某个用户所有的商品都是同等受欢迎的,当然在一些复杂的场景下,有些用户是重点用户,会有不同的权重,本篇文章重点讨论简化的情况。

  在实践中,尤其是很多大型的平台,用户和商品都是亿级别的,对这种级别的数据进行排序不仅会耗费大量的计算资源,而且还要等很久的时间,所以大家都会选择采样观察指标。很多时候大家会选择采样个无关的商品然后加上相关的商品再去计算指标,其实只需要保证采样之后计算得到的指标和我们的全量数据计算得到的指标是保证相对大小的,那么一般是没有任何问题的。

  一致性:令评估数据D是固定的,如果任意两个推荐算法A和B在期望下能保证相对顺序,那么我们说在采样下指标M是保持一致的, 也就是说,对于A和B,我们有:

  而如果是不一致的,那么评估M并不是一个M真实表现的好的indicator。

  不一致性:上面我们知道了一致性的重要性,那么我们常用的那些指标AUC, Precision, Recall等等是否满足一致性呢?下面我们来看一些例子。

  假设我们有三个推荐系统A,B,C,以及n=10000个商品,每个推荐系统将会在5个特殊实例上(例如五个用户)上面进行评估, 这些实例每个只对应一个相关的商品。而这三个推荐系统的结果为:

  最终我们的得分计算如下Table1,可以按照评估指标的公式直接进行计算。

  现在假设我们随机采样了 m=99 个不相关的商品,然后我们重新计算 r 在采样的集合下的新的位置。上图中的Table2展示了采样1000次的重新采样的均值和标准差。通过观察Table1和Table2,我们发现:

  我们修改实验的采样个数重新实验,从Figure2中我们发现:随着我们采样的样本越来越多,我们发现三个推荐系统A ,B,C的相对大小都发生了很大的变化,例如:

  上面主要都是从试验的方面来验证采样之后重新计算的Metric和真实的Metric除了AUC之外基本都是不大置信的,此处我们计算每个Metric的期望。

  对于m=1,所有的metric在期望上都给出相同的定性度量,没有必要选择不同的评估指标.

  增加样本的大小m可以减少采样的评估指标的bias;同时也可以降低纠正之后的评估指标;

  增加评估点的个数D,可以降低平均估计的方差,而这对于纠正之后的评估指标是更加友好的。因为没有进行纠正的指标即使最终拿到了0方差,但是会存在非常大的偏差;

  不同的推荐算法是否构建不同的排序分布;(例如有些推荐算法在顶部表现好,有些是整体好)

  此处作者对比了之前提出的三种不同的纠正方案,同样的从Table3中,我们发现:

  从上图中,我们发现,未进行纠正的采样指标需要超过1000的样本(1/3的样本),才能得到推荐算法Y比X好的结论,但是纠正之后的指标(BV的trade off + r=0.1 )只需要60个样本即可达到同样的效果;

  本文的研究显示之前大多数论文采用采样计算最终指标的方案其实是错误的,大概率会和真实的情况存在偏差,得到错误的结论。所以如果可以的话,我们应该尽量避免在最终评估时对样本进行采样,如果无法避免的话,那么纠正之后的方案可以拿到更为合理的结果(但是会增加方差)。

  从上面的分析以及实验中,我们发现采样之后计算的指标会带来较大的偏差,使用纠正的策略,可以降低偏差,但是也会引入更高的方差。所以如果采样时不可避免,那么有下面几条建议:

  重复试验N此(不同数据集,N-fold的交叉验证),方差会由数据集的切分不同而被引入,也有可能会被推荐算法的初始化引入,对负样本采样的过程中,随机种子也会带来另外一种方差, 所以我们很难找到两个不同的推荐算法statistically significant差异;但即便如此,我们计算得到的评估指标仍然是一个非常强的indicator,显示我们算法在真实情况下的表现;偏差越小,indication就越强。

  后续我们会筛选出在我们实践中带来提升或者启发的工作进行细致的解读与探讨,欢迎关注我们的公众号,也欢迎多交流,我是三品炼丹师: 一元。

  评估指标进行了讨论,内容略多, 还有一些数学推导, 有兴趣的可以去阅读文末给出的原始论文链接, 此处直接列出核心观点:在评估推荐算法的效果时,能不

  本文对于推荐系统中的采样评估指标进行了讨论,内容略多, 还有一些数学推导, 有兴趣的可以去阅读文末给出的原始论文链接, 此处直接列出核心观点:

  除了AUC,Precision@K,Recall@K,Average Precision,NDCG都是不一致的,采样计算得到的结果和真实结果可能差很大!

  现在随机采样计算得到的评估指标的分数具有高偏差,低方差的问题,很多情况和真实情况不符合,结论可能也都错了!

  如果一定要进行采样计算评估指标的值, 建议采用本文提出的纠正的方案,虽然可能会有较大的方差,但是偏差大大降低,更加接近真实情况;

  因为本文实在是有些干,所以不想读文章的朋友直接记住下面两张PPT的内容就可以了。

  介绍我们目前常用的一些评估指标,包括AUC,Precision,Recall,AP,NDCG;

  然后讨论怎么样才算是好的采样评估指标(一致性),之后开始举例讨论现有的诸多指标例如Recall,Precision,AP等存在不一致性,也就是说采样之后计算的指标是不能反映真实情况的;

  为了能弥补现有的采样策略的问题,作者提出了三种不同的修正策略,并验证了其在采样评估的时候相较于原始采样策略的优势(更加接近于真实情况);

  AP是下降最快的;rank1的AP相较于rank2是2倍重要;rank1的NDCG是1.58倍重要与rank2;

  AUC几乎是线性下降的, 也就是说我们将商品从102位排到第101位和把商品从第2位排到第1位是类似的;

  在实践中,尤其是很多大型的平台,用户和商品都是亿级别的,对这种级别的数据进行排序不仅会耗费大量的计算资源,而且还要等很久的时间,所以大家都会选择采样观察指标。很多时候大家会选择采样个无关的商品然后加上相关的商品再去计算指标,其实只需要保证采样之后计算得到的指标和我们的全量数据计算得到的指标是保证相对大小的,那么一般是没有任何问题的。

  :令评估数据D是固定的,如果任意两个推荐算法A和B在期望下能保证相对顺序,那么我们说在采样下指标M是保持一致的, 也就是说,对于A和B,我们有:

  上面我们知道了一致性的重要性,那么我们常用的那些指标AUC, Precision, Recall等等是否满足一致性呢?下面我们来看一些例子。

  假设我们有三个推荐系统A,B,C,以及n=10000个商品,每个推荐系统将会在5个特殊实例上(例如五个用户)上面进行评估, 这些实例每个只对应一个相关的商品。而这三个推荐系统的结果为:

  现在假设我们随机采样了 m=99 个不相关的商品,然后我们重新计算 r 在采样的集合下的新的位置。上图中的Table2展示了采样1000次的重新采样的均值和标准差。通过观察

  中我们发现:随着我们采样的样本越来越多,我们发现三个推荐系统A ,B,C的相对大小都发生了很大的变化,例如:

  增加样本的大小m可以减少采样的评估指标的bias;同时也可以降低纠正之后的评估指标;

  增加评估点的个数D,可以降低平均估计的方差,而这对于纠正之后的评估指标是更加友好的。因为没有进行纠正的指标即使最终拿到了0方差,但是会存在非常大的偏差;

  不同的推荐算法是否构建不同的排序分布;(例如有些推荐算法在顶部表现好,有些是整体好)

  本文的研究显示之前大多数论文采用采样计算最终指标的方案其实是错误的,大概率会和真实的情况存在偏差,得到错误的结论。所以如果可以的话,我们应该尽量避免在最终评估时对样本进行采样,如果无法避免的话,那么纠正之后的方案可以拿到更为合理的结果(但是会增加方差)。

  从上面的分析以及实验中,我们发现采样之后计算的指标会带来较大的偏差,使用纠正的策略,可以降低偏差,但是也会引入更高的方差。所以如果采样时不可避免,那么有下面几条建议:

  重复试验N此(不同数据集,N-fold的交叉验证),方差会由数据集的切分不同而被引入,也有可能会被推荐算法的初始化引入,对负样本采样的过程中,随机种子也会带来另外一种方差, 所以我们很难找到两个不同的推荐算法statistically significant差异;但即便如此,我们计算得到的评估指标仍然是一个非常强的indicator,显示我们算法在真实情况下的表现;偏差越小,indication就越强。

  除了AUC,Precision@K,Recall@K,Average Precision,NDCG都是不一致的,采样计算得到的结果和真实结果可能差很大!

  现在随机采样计算得到的评估指标的分数具有高偏差,低方差的问题,很多情况和真实情况不符合,结论可能也都错了!

  如果一定要进行采样计算评估指标的值, 建议采用本文提出的纠正的方案,虽然可能会有较大的方差,但是偏差大大降低,更加接近真实情况;

  因为本文实在是有些干,所以不想读文章的朋友直接记住下面两张PPT的内容就可以了。

  介绍我们目前常用的一些评估指标,包括AUC,Precision,Recall,AP,NDCG;

  然后讨论怎么样才算是好的采样评估指标(一致性),之后开始举例讨论现有的诸多指标例如Recall,Precision,AP等存在不一致性,也就是说采样之后计算的指标是不能反映真实情况的;

  为了能弥补现有的采样策略的问题,作者提出了三种不同的修正策略,并验证了其在采样评估的时候相较于原始采样策略的优势(更加接近于真实情况);

  AP是下降最快的;rank1的AP相较于rank2是2倍重要;rank1的NDCG是1.58倍重要与rank2;

  AUC几乎是线性下降的, 也就是说我们将商品从102位排到第101位和把商品从第2位排到第1位是类似的;

  在实践中,尤其是很多大型的平台,用户和商品都是亿级别的,对这种级别的数据进行排序不仅会耗费大量的计算资源,而且还要等很久的时间,所以大家都会选择采样观察指标。很多时候大家会选择采样个无关的商品然后加上相关的商品再去计算指标,其实只需要保证采样之后计算得到的指标和我们的全量数据计算得到的指标是保证相对大小的,那么一般是没有任何问题的。

  :令评估数据D是固定的,如果任意两个推荐算法A和B在期望下能保证相对顺序,那么我们说在采样下指标M是保持一致的, 也就是说,5wk金沙官网对于A和B,我们有:

  上面我们知道了一致性的重要性,那么我们常用的那些指标AUC, Precision, Recall等等是否满足一致性呢?下面我们来看一些例子。

  假设我们有三个推荐系统A,B,C,以及n=10000个商品,每个推荐系统将会在5个特殊实例上(例如五个用户)上面进行评估, 这些实例每个只对应一个相关的商品。而这三个推荐系统的结果为:

  现在假设我们随机采样了 m=99 个不相关的商品,然后我们重新计算 r 在采样的集合下的新的位置。上图中的Table2展示了采样1000次的重新采样的均值和标准差。通过观察

  中我们发现:随着我们采样的样本越来越多,我们发现三个推荐系统A ,B,C的相对大小都发生了很大的变化,例如:

  增加样本的大小m可以减少采样的评估指标的bias;同时也可以降低纠正之后的评估指标;

  增加评估点的个数D,可以降低平均估计的方差,而这对于纠正之后的评估指标是更加友好的。因为没有进行纠正的指标即使最终拿到了0方差,但是会存在非常大的偏差;

  不同的推荐算法是否构建不同的排序分布;(例如有些推荐算法在顶部表现好,有些是整体好)

  本文的研究显示之前大多数论文采用采样计算最终指标的方案其实是错误的,大概率会和真实的情况存在偏差,得到错误的结论。所以如果可以的话,我们应该尽量避免在最终评估时对样本进行采样,如果无法避免的话,那么纠正之后的方案可以拿到更为合理的结果(但是会增加方差)。

  从上面的分析以及实验中,我们发现采样之后计算的指标会带来较大的偏差,使用纠正的策略,可以降低偏差,但是也会引入更高的方差。所以如果采样时不可避免,那么有下面几条建议:

  重复试验N此(不同数据集,N-fold的交叉验证),方差会由数据集的切分不同而被引入,也有可能会被推荐算法的初始化引入,对负样本采样的过程中,随机种子也会带来另外一种方差, 所以我们很难找到两个不同的推荐算法statistically significant差异;但即便如此,我们计算得到的评估指标仍然是一个非常强的indicator,显示我们算法在真实情况下的表现;偏差越小,indication就越强。

  。热文被大量分发,个性化能力大幅减弱。站在一个用户的角度看,用户的样本可以通过一些手段做到均衡化。站在一篇文章的角度看,就不是这么回事了,被频繁点击的文章有大量正样本,因为负样本是随机采样,冷文章和热文章被采到的几率相等,那么被频繁点击的文章正样本相对负样本就会多很多,多到均衡化都带不动。

  这些广告可能同时出现在正样本和负样本中。我们不希望这些广告出现在负样本中被压制,因为他们通常具有很高的商业价值。因此会对这部分广告进行降采样。

  采用的方法是:训练集中具有较高曝光频率的广告的负样本三元组,以这个概率丢弃:

  将大于阈值的记为Ah, 小于阈值的为Al, f(a)为广告a的曝光频次。

  一个batch中从其他user的点击中随机选取k个作为负样本(文中k=2)

  频繁被点击的文章会被频繁负采样,可做到文章侧的样本均衡,有效减轻了头部效应。并且相对于排序的负采样,数据的广度更宽,模型可处理多种类型的文章。

  分别使用easy负样本、hard负样本构成的样本训练多个模型,对得到的embedding加权拼接(权值需要手工调整)。

  根据文章中的经验,使用“曝光未点击”作hard negative训练出来的hard model同样没有效果,反而是挖掘出来的hard negative训练出来的hard model做二次筛选更加有效。

网友评论

我的2016年度评论盘点
还没有评论,快来抢沙发吧!