广告数据定量分析:分类型变量和数值型变量的关系-创视优品

广告数据定量分析:分类型变量和数值型变量的关系

  •   我们在广告优化实践中,经常会遇到广告定向的问题。
      比如要不要限制广告投放受众的性别、城市、操作系统等,限制包括控制出价、仅投放某类特定人群等,以期获得更好的广告效果。
    这时我们分析的就是分类型变量(广告定向、广告设置等)和数值型变量(流量、成本)的关系。统计学上最常用的数据分析方法叫作方差分析,从形式上看,方  差分析是检验多个总体的均值是否相等的统计方法,但本质上它研究的是分类型自变量对数值型因变量是否有显著影响。
    以多推广渠道的用户质量评估为例,如表2-3所示,某App在各应用商店推广渠道一个月的激活注册率。激活注册率=注册量/激活量,一定程度上可以反映获取的新用户质量。


    表2-3 某App在各应用商店推广渠道一个月的激活注册率分布


      我们要问的第一个问题就是,数据中的两个变量之间是否存在差异,即不同推广渠道的App激活注册率是否真的有差别。
    为了更容易地找出各推广渠道之间激活注册率的不同,我们需要一种比散点图更简单的图。如图2-19所示,在箱形图中,把每一个推广渠道的数据用5个数代替,分别是最大值、最小值、第75分位点、第25分位点、中位数。


    图2-19 不同推广渠道的激活注册率箱形图


      箱形图增强了不同推广渠道之间的可比性,接下来我们一起来看看从图中可以获悉哪些信息?首先应该来对比不同推广渠道的中位数,因为它们代表中心值。中位数由箱形图中间的横线代表,可以发现应用宝、vivo应用商店、OPPO应用商店三个渠道的中位数最高,接近于35%。因此初步判断这三个渠道的平均激活注册率最高。同样,可以看到小米应用商店、豌豆荚、百度手机助手、360手机助手等几个渠道的激活注册率是较低的。
    箱形图的另一个特征是箱子的高度,高度越小,说明分布越集中。例如,小米应用商店的箱子比其他渠道要短,这意味着该渠道内不同日期之间的激活注册率比其他渠道要更稳定。
      第一个问题的答案已经出来了,从图中可以直观地看出,不同推广渠道和App激活注册率这两个变量之间存在关系。
      第二个问题是,我们还需知道这两个变量之间关系的强度,以及这个关系是否可能出于偶然。要回答这个问题,就需要使用方差分析。
      不同推广渠道的激活注册率不尽相同,究其原因是它同时受到自变量和残差变量的影响。方差分析可以帮助我们将其定量化。自变量在这个例子中就是不同渠道,残差变量是除自变量之外能够对因变量(激活注册率)产生影响的变量。
      渠道变量和残差变量的总效应=(每一个观测值-总均值)2之和
      自变量的效应=(每一组的均值-总均值)2之和
      残差变量的效应=(每一个观测值-所有组的均值)2之和
      图2-20是我用Excel计算得到的方差分析结果,具体操作方法是Excel的“数据”菜单栏-数据分析-方差分析:单因素方差分析。
      图2-20的上半部分是不同渠道的描述统计,包括观测值、求和、平均值、方差。下半部分是我们关注的重点,差异源这一列包括组间、组内和总计,对应刚才介绍的自变量、残差变量和总效应。SS这列为平方和,即为效应的具体值。可以简单计算一下,自变量(不同渠道)的效应占比是0.6794/1.0167=66.8%。


    图2-20 单因素方差分析表


      这个比例0.668称为R2,这个数是可以与回归分析中相关系数的平方直接对比的。换句话说,已知R2是0.668,取平方根后,R就应该是0.817,可以近似理解为这是两个变量(不同渠道、激活注册率)之间的相关系数。R=0.817,可知不同渠道和激活注册率之间具有很强的关系。
    至此,还剩下最后一个问题。这两个变量之间的关系是偶然的吗?
      图2-20下半部分的p值列,又看到我们熟悉的p值了。可知p值是5.51758*10-46,远远小于0.05。说明,不同渠道和激活注册率之间的关系是确实存在的,是超出偶然机会可以解释的范围的。
      方差分析的适用范围非常之广,凡是涉及分类型变量和数值型变量的关系,都可以考虑使用。下面列举一种代表性的需求场景,供大家参考。
      需求场景:评估各类广告定向对广告效果的影响程度。
      我们都知道,广告定向对于广告优化是非常有价值的,但现在主流的广告媒体广告平台提供的广告定向如此丰富,少则5~8种,多则10~20种,使人眼花缭乱。选取哪些广告定向进行投放测试,除了广告主能提供一定的数据指导外,更多是依赖广告优化人员的个人习惯和经验。而方差分析可以帮助我们更方便和科学地实现这一需求。
      首先,根据广告主的数据参考以及优化人员的经验,选取3~5类广告定向进行投放测试。不同的广告定向即为自变量。
      其次,确定用于评估广告效果的数据指标是转化率,还是转化成本。这些用来评估广告效果的数据指标即为因变量。
      最后,待数据积累到一定程度,一般应保证每一组的点击量在10000以上,开始做方差分析。可以计算出不同广告定向和广告效果的相关系数,即代表前者对后者的影响程度。
      对于广告优化的指导是,投放测试首选应选取对广告效果影响较大的广告定向。而确定了某一广告定向后,比如性别,到底是投放男性用户的广告效果更好,还是投放女性用户的广告效果更好,就可以用两个总体比例或两个均值之差的显著性检验了。

  • 本文章摘自书籍或来源于网络,如果您喜欢本文,请通过正规渠道购买正版书籍或者访问原网站,如有侵权,请联系我们及时删除。
  • 相关资讯

    您可能对下面的文章也感兴趣!

    我们的服务项目

    企业宣传片、三维动画、企业会议片、MG动画、短视频、产品广告

    Top