点击率预估模型的目标和常见的模型评估方法-创视优品

点击率预估模型的目标和常见的模型评估方法

  •   点击率预估模型的目标是预估真实CTR,但事实上很难知道一个广告的真实CTR是多少,一般只能通过历史CTR来衡量模型的预估效果,但如果历史数据太少,历史CTR的置信度会很低,所以一般只选择至少被曝光100次的广告来训练和评估模型。下面是几种常见的模型评估方法。
    一.KL离散算法
      在信息论里面,有一个KL离散(Kullback-Leibler Divergence)算法,它是对两个概率分布P和Q不对称性的度量,这个算法最初是由Solomon Kullback和Richard Leibler在1951年提出的,它的数学定义是


      举个简单的例子,如果现在有两个离散型概率分布P和Q,有4个类别,它们在P中的概率分别是0.1、0.2、0.3、0.4,在Q中这4个类别的概率分别是0.4、0.3、0.2、0.1,那么


      公式(9.3)针对的是离散型概率分布,对于连续型概率分布,它的计算公式为


      其中,p和q分别是概率分布P和Q的概率密度函数。
      KL离散算法可用来评估数据预估分布和真实分布之间的差异。不难看出,它可以度量相同类别数据的分布差异,且如果某个类别的样本数据较多,则它对应的权重也会较大。
    二.AUC
      在二分类问题中,模型会对每个样本预估一个分数y,一般会再选择一个阈值t,当y>t时该样本为正样本,当y<t时该样本为负样本,这样预估结果可以被分为4类,如表9.5所示。
    表9.5 预估结果分类


      现在定义真正例比率TPR和假正例比率FPR为


      其中,N+为正样本总数,N-为负样本总数。如果将TPR和FPR画在一个坐标轴中,随着选取阈值t的不同,TPR和FPR在坐标轴上会形成一条曲线,这条曲线叫ROC曲线。假如模型预估结果是随机的,那么模型对正负样本没有区分度,在y>t的样本中真实的正负样本比例和总样本中正负样本的比例相同,即


      此时ROC为一条直线。如果模型区分度很好,预估的所有正样本都比负样本分数高,那么当t变化时,有TPR=1或FPR=0。而真实模型的ROC是一条上凸的曲线,介于上面两种情况之间,如图9.3所示,ROC曲线下的面积即为AUC(Area Under The Curve),AUC常常被作为评估模型好坏的标准。


    图9.3 AUC


    三.NE
      NE(Normalized Entropy)通过如下公式计算:


      其中,pi为模型的预估点击率,p为历史数据的统计点击率。NE越小,模型的效果越好。

      企业宣传片报价,广告宣传片报价,短视频宣传片报价可以致电咨询我们。

  • 本文章摘自书籍或来源于网络,如果您喜欢本文,请通过正规渠道购买正版书籍或者访问原网站,如有侵权,请联系我们及时删除。
  • 相关资讯

    您可能对下面的文章也感兴趣!

    我们的服务项目

    企业宣传片、三维动画、企业会议片、MG动画、短视频、产品广告

    Top