大数据：利用相关性的营销

国内有一家民营航空公司，会员不下数百万，会员的一个重要信息是邮箱地址。另外一边，微博账号申请也需要一个邮箱地址。通常来说，同一个邮箱地址意味着航空公司里的会员和微博里的会员，应该是同一个人。公司做了一个筛选，合并出十万个用户来。

　　然后一家第三方公司的数据部门介入，主要任务是看这十万航空公司会员的微博用户，在社会化媒体上的行为，比如“说”些什么，比如喜欢介入什么样的话题去转发评论，比如喜欢关注什么样的商业账号。研究这类事的原因在于：这个航空公司很想知道它在社会化媒体上发起什么样的活动(以及活动所配备的礼品刺激)会吸引到这十万会员参加，成为earned media。

　　这个案例并非严格意义上的大数据，因为数据还是不够海量。不过，它的原理和大数据营销有关：寻求相关性。

　　相关性不是因果，很难得出这样的结论：因为经常坐某某航空公司的班机，所以喜欢参与某某活动(反过来也不成立)。但这两个变量之间，从普遍意义上讲，存在一定的关联。这个道理就像穿红袜子和炒股票的关系，或许有一定的关联系数，但绝不是因果关系。相关搞成了因果，差不多和“迷信”就没有区别了。

　　商业应用上，其实不太需要拼命挖掘因果。你只要知道坐该航空公司班机和参加特定活动之间存在一定概率就行了，至于究竟是为什么，可以暂时忽略之。对于营销业者而言，这个概率哪怕能帮助到营销活动提高10%参与度，都是不小的成效。

　　但问题在于，很多人把相关等同于因果，这样的做法会形成很有些误导性的结论。比如说，当在这个十万航空公司用户中发现，他们特别喜欢某类活动，这个结论是不具有推广性质的。再新增五万航空公司微博用户时，你很难把上述那个结论也放他们头上。因为这里面没有因果关系。要确认因果关系，必须经过一个很复杂的观察和思考过程，排除所谓“隐性变量”。这不是那么简单的做一些数据分析就可以的。相关性是因果的前提，但是不等于因果。

　　于是，大数据出现了。

　　大数据寻求的是海量数据，海量到什么份上？就是全样本。全样本和抽样显然是不同的。过去的研究，由于操作性的关系，很难做到全样本，需要去抽样。抽样的科学做法是“随机”——不过这一点听着容易，做起来相当困难。真正的随机抽样需要花很多钱(利用社交网络关系，通过一个用户做问卷再发动这个用户找更多的人来做问卷，一点都不随机)，而且一个无法绕过的弊端在于：如果你使用调查问卷的方法，你很难排除回答者的语言回答一定就是ta心中真正的想法或者实际上的真正行为。

上一篇：请告诉我，你是一棵什么树

下一篇：分析：“阿里浪”引动数字营销新理论