܄ 

袁帅:方差在数据驱动企业运营管理中的应用

【数据猿导读】 在介绍描述性分析中曾介绍提到过针对不同的因素或者变量做进一步科学的评测,需要利用到统计学分析中的方差,今天将就方差如何在销售管理分析中应用做更加详细的介绍和阐述。

袁帅:方差在数据驱动企业运营管理中的应用

方差分析是从分析数据的差异入手,分析哪些因素是影响数据差异的众多因素中的主要因素,从而设计出最优的方案。

如何获得最佳的产品销售量:哪些因素是影响销售量的主要因素,哪些因素的那种情况更利于提高销售量,哪些因素的组合更利于提高销售量可以利用方差分析的方法来实现。方差在销售管理管理数据分析中,需要先明确几个核心概念:

观测变量:作为观测的对象(如:销售量、成交量等);

控制因素:人为可以控制的因素(如:服务品类、产品种类、销售价格、销售策略等);

随机因素:人为很难控制的因素(如:销售人员的素质、地域文化、同类竞品等因素)。

在知晓了几个核心概念后,我们需要通过分析解决的是:

观测变量的数据差异变化=控制因素+随机因素,这是方差分析的核心。当控制因素对观测变量结果有显著影响时,和随机因素共同作用将必然使得观测变量发生更为显著的变动,反之,观测变量的变动较小,将归结为随机变量造成的。

下面我们来看一个具体的例子(该例子延续之前分享文章中的示例)

为了对几个行业的对某公司同一产品成交的情况进行评价,该公司数据分析组在四个行业分别抽取了不同的企业作为样本。 从数据表中,我们要分析得到:分析四个行业之间的对同一产品的成交购买是否有显著差异,也就是要判断“行业”对“产品成交”是否有显著影响。如何作出这种判断最终被归结为检验这四个行业产品购买成交数的均值是否相等,若它们的均值相等,则意味着“行业”对产品购买成交是没有影响的,即它们之间对产品的需求使用没有显著差异;若均值不全相等,则意味着“行业”对产品购买是有影响的,它们之间对产品需求是有显著差异的。

因为我们要分析行业对产品购买成交数是否有影响,行业就是要检验的因素,零售业、旅游业、航空公司、家电制造业就是因子的水平,因子的不同表现,反映着观察值:每个行业的产品成交购买数量的变化。

行业与产品购买成交有一定的关系,如果行业与产品购买成交之间没有关系,那么它们的购买次数应该差不多相同,在散点图上所呈现的模式也就应该很接近当然,仅从散点图上观察还不能提供充分的证据证明不同行业与产品购买成交有显著差异毕竟这种差异也可能是由于抽样的随机性所造成的因此我们需要有更准确的方法来检验这种差异是否显著,也就是进行方差分析,方差是通过对数据误差来源的分析判断不同总体的均值是否相等。因此,进行方差分析时,需要考察数据误差的来源,误差来源分为:随机误差和系统误差。

随机误差:因素的同一水平下,样本各观察值之间的差异,比如,同一行业下不同时间点产品购买成交数量是不同的,这种差异可以看成是随机因素的影响,称为随机误差。系统误差则是因素的不同水平下,各观察值之间的差异,比如,不同行业之间的产品购买成交数量之间的差异,这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差。

而数据的误差在方差分析中则是用平方和来表示,平方和又分为组内平方和:因素的同一水平下样本数据的平方和,比如,零售业产品购买成交量的误差平方和,要明确组内平方和只包含随机误差。组间平方和,因素的不同水平下各样本之间的平方和,比如,四个行业同一产品购买成交量之间的误差平方和,组间平方和既包括随机误差,也包括系统误差。

判断行业对产品成交数量是否有显著影响,也就是检验产品销售成交购买次数的差异主要是由于什么原因所引起的。如果这种差异主要是系统误差造成,说明不同行业对该产品销售成交有显著的影响。那么要进行方差分析我们先要完成几个基本假设:

每个总体都应服从正态分布(感兴趣的朋友可以自行去了解下什么是正态分布,其再统计学和概率学中具有着极其重要的地位),比如,每个行业产品购买成交的次数必需服从正态分布;

各个总体的方差必须相同即各组观察数据都是从具有相同方差的总体中抽取的,比如:四个行业的产品购买成交量方差都相等;

观察值是独立的,比如:每个行业的产品购买成交数量与其他行业的产品购买成交数量是独立的。

在上述的前提假定条件下,判断行业对产品销售交易成交量是否有显著的影响,实际上也就是验证具有同方差的四个正态分布总体的均值是否相等,如果他们均值相等,则可以反倒出四个样本的均值也会很接近。

提出问题假设后,我们需要计算出:水平的均值、全部观察值的总均值,误差平方和,均方。

各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,这就是均方,也称为方差(MS),计算方法是用误差平方和除以相应的自由度,SST 的自由度为n-1,其中n为全部观察值的个数;SSA的自由度为k-1,其中k为因素水平(总体)的个数;SSE 的自由度为n-k

SST(总离差平方和)反映全部数据总的误差程度;SSE(组内平方和)反映随机误差的大小;SSA(组间平方和)反映随机误差和系统误差的大小,如果原假设成立,则表明没有系统误差,组间平方和SSA除以自由度后的均方与组内平方和SSE和除以自由度后的均方差异就不会太大;如果组间均方显著地大于组内均方,说明各水平之间的差异不仅有随机误差,还有系统误差,判断因素的水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差异的大小。那么通过上方计算得出的F值=MSA/MSE对比等于=3.406643,则数据分析得到,产品的销售成交数量不仅与同一行业内不同时间(随机变量)有关,也与不同行业(系统变量)有着关系。

通过计算我们能够得出,SSA(组间平方和)对产品销售成交量的影响效应占总效应的近35%,而SSE(组内平方和)对产品销售的成交量的比例达到了65%以上,而R=0.5914074,则表明了行业属性与该产品的销售成交量有着中等以上的关系,需要引起重要的重视。

方差的分析也分为:单因素方差分析,只考虑一个控制因素的影响;多因素方差分析,考虑两个以上的控制因素和他们的交互作用;协方差分析,在尽量排除其他因素的影响下,分析单个或者多个控制因素对观测变量的影响,这里面会引入协变量,而本文中介绍的是方差分析中的单因素方差分析方法,也是构成方差分析的基础。

在企业销售分析运营管理过程中,我们往往会存在彼此相互辩解而争执的现象存在,比如:到底是地域的因素造成了销售额的降低,还是销售人员的个人工作能力原因造成的,亦或者是因为价格的因素影响的等等,与其在会上面红耳赤,各说各的道理,不如依据科学的数据分析方法,提出假设,构建样本数据,进行方差分析,论证,寻求到到底是哪个因素带来的更加大的影响,再针对性的调整策略,优化,提升投入产出比,如开篇中提到的,数据驱动型企业,一定要从企业根本的目标点——销售(创收)出发,市场、运营、公关、渠道、行政等等企业内部的管理经营终极目标都是为了盈利,紧抓销售转化这一核心点,以点带动面,再进而带动整体,这也是我写数据驱动企业管理系列文章,从销售这一点开始写起的原因。

方差的分析其实很复杂,有着更加深层次的统计学和概率学在其中,而作为企业的销售或者运营中的职员,我们远不必要求自身达到专业的统计学背景出身或者数据分析专业人士的认识和掌握的那种高度,能够很好的利用和认识单因素方差分析方法,并将其运用到工作中,便已经能够具备极强的职场竞争力了。


来源:36大数据

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

我要评论

精品栏目

[2017/07/27]

大数据24小时

More>

[2017/07/24-28]

大数据周周看

More>

[2017/07/24-28]

大数据投融资

More>

[2017/07/24-28]

大咖周语录

More>

[2017/07/24-28]

大数据周聘汇

More>

[2017/07/24-28]

每周一本书

More>

返回顶部