普及一下什么是大数据技术?

在当今这个时代,人们对「大数据」这个词并不陌生。大数据技术指的是超过传统数据库系统处理能力的数据。随着互联网上的各种大数据的产生,数据分析就显得尤为重要。

今天,我们来聊聊大数据。

提起数据,大家可能会觉得比较无聊,看到一大堆数据头都大了。

但数据其实没有那么难理解,从中还可以得出很多有趣的小结论。比如,马云就曾经分享过这么一个结论:在中国,浙江女性的胸最小。这个结论是怎么得出的呢?就是通过阿里巴巴的大数据,发现淘宝销售的胸罩中,卖到浙江去的胸罩平均尺寸最小。有很多用其他方法难以得到的信息,通过分析数据,就变得一目了然。

当然,大数据对于我们的意义,可不仅仅是得到一些信息而已,真正理解了大数据,还可以改变我们的思维方式。

不知道大家小的时候听没听过这样一首儿歌,儿歌里说:「因为所以,科学道理」。这其实是在说,我们习惯性的思维方式是 「因为什么,所以什么」,是用因果性的方式思维,而这种思维,正是大数据思维所不一样的,大数据不是关注因果关系,而是关注相关性,也就是说人与人之间、人与事物、事物与事物之间的相互关系。

我举一个例子哈:

十年前的一个夏天,科学家们在研究游泳溺水事故时,发现了一个有趣的现象:数据表明呢,随着冰淇淋销量的增长,淹死的人数直线上升,两者的变化几乎完全一致。这是为什么呢?大家可以思考一下。

难道是吃冰淇淋会导致人们淹死?

——当然不是了,吃冰淇淋并不是溺水的原因。真正的原因是什么呢?是天热了,吃冰淇淋的人多了,游泳的人也多了,淹死的人自然就多了。

在冰淇淋销量和溺水人数之间没有因果关系,只有相关性。

通过这两个故事啊,大家是不是对数字开始有点感冒了呢?下面啊,我就和大家分享一下,用大数据思维可以教给我们的四个要点:

第一点:传统的因果思维是有问题的。

传统的思维,常常习惯在相关的两件事之间建立因果关系,我们总是喜欢想:因为什么,所以什么。

但这个世界很复杂,而且变得越来越复杂,干扰的因素很多,很多时候我们并不能准确地找到原因。而如果强行找原因,往往会适得其反。

就像我们刚刚举的那个例子,如果按照因果关系的思维,莽撞地限制冰淇淋的销售,那么非但不会降低溺水人数,由于减少了人们避暑的方式,淹死的人反而会变多。

初衷是好的,但盲目建立因果关系是很危险的。

第二点:注重相关性,才是更有效率的思维方式。

沃尔玛是全世界最大的连锁超市,它的数据分析师发现,当把啤酒和婴儿纸尿裤摆放在一起时,会大幅提高两者的销量。

为什么会这样呢?是因为带孩子的爸爸变多了吗?还是因为人们在买啤酒的时候有点愧疚,希望展现一下自己有责任心的一面?没人知道。

但是啊这一点也不重要了。沃尔玛发现了这一相关后,迅速调整货架布局,把这两种货物摆在一起,既提高了销量,又便利了顾客。

很多顾客赞叹:「沃尔玛居然知道我心里在想什么」——其实沃尔玛不知道。但这没关系了。

从始至终,沃尔玛也没有去研究这一现象的原因。但这丝毫也没有妨碍沃尔玛做出正确的决策,而且反应更快了。

注重相关性而非因果,并不会使你损失什么。

第三点:相关需要全样本。

首先,我解释一下样本是什么。样本是我们做观察和调研的时候抽取的一部分数据,它对于做决策具有很重要的作用。在大数据当中,正是样本规模的改变,导致了决策思维的改变。

相关性,是大数据最核心的特征。

但是你有没有考虑过,既然相关性这么好,为什么人们还是长期保留着因果性的传统思维呢?

按照进化的逻辑,像因果性这么低效的思维方式,怎么还没有被淘汰掉呢?

这就是大数据的关键。

因为相关性不追究事物之间的逻辑关系,所以要想得到可靠的结论,所需的数据量要比因果性更大,样本要更全面。

在以前,技术的局限让我们不可能获得足够的数据来支持我们的判断。所以我们不得不采取一种取巧的方式,去探究和论证因果。

但现在,随着互联网和计算机技术的发展,大数据和全样本变得可能了,我们没有理由不去利用这种便利。

人与猴子的区别在于我们会使用工具,而新思维的人和旧思维的人区别在于:我们会使用更新、更高级的工具。

这就引出了大数据的第二个特征:全样本。

第四点:面对全样本,需要我们有抽象数据的能力。

八年前我在磨铁创立黑天鹅品牌,当时磨铁的执行总裁是张凯峰先生,张总之前是海尔的流程再造总监。当时的磨铁乃至于整个图书出版行业都面临着一个巨大的转折。那时候,大家都在争论:书籍到底是不是一个产品。

今天,谈到书籍产品大家已经习以为常了,但在当时,张凯峰先生在出版业首次引进了产品经理这个概念。把书当成产品来做。这是一个创举,让磨铁在那个出版业的大转型时期领先一步。

把书当作产品来做,就意味着不能只凭直觉,要靠数据说话。

当时「开卷」已经存在十年了,这是一个全面跟踪中文图书市场零售数据的平台。既有不同地点的数据,又有不同时间的数据。可以说是很全面了。

但是当时我们的图书行业是怎么利用数据的呢?主要就是书出来之后,在数据平台上监测到卖的好,就赶紧加印,免得在市场上断货。很好的数据,但主要就只起到这样一个作用。

这是很遗憾的。数据没有得到充分的利用,完全没有参与到制作流程里来。因为什么?因为当年我们很多的编辑不知道怎么解读这些数据,看到一堆数字,头大了,缺乏抽象数据的能力。

一个很有意思的事实是,我们都知道很多经济类、计算机类的书卖的比较好,一方面当然是因为读者群刚需比较大,但还有一个很重要的原因,就是理解数据的能力。

或许是学科背景的差异,在很长一段时间里,你会发现就平均水平来说,做这些书的人 比做人文社科类图书的人更能理解数据。

同样的大数据,在看不懂的人眼中,这就是一堆乱码,但是在有抽象数据能力的人眼中,他们可以从这里面看出周期,看出规律,看出他们读者的需求。因为他们有宏观性、系统性的思维。

有这种能力的人,能够不断地从数据中得到整体性的反馈,这样他们的成长速度比只是通过做一本本书、一个个产品积累感觉的人快得多。

当时张总在磨铁呆了三年,主要就是给磨铁树立了这样一种数据意识,同时训练了一批有系统性思维和数据抽象能力的编辑。这是开风气之先的一件事,靠着这批人,磨铁做到今天,估值 45 亿,在出版业取得了龙头地位。

另外一个靠着数据能力成功的例子是读客,读客图书今天估值 20 亿,在业界号称单品之王,它的创始人华杉、华楠两兄弟,是做战略咨询出身。

所以不要以为有了全样本就够了,你必须要有理解数据的能力。小样本的本质是训练人的感觉,大样本的本质是训练方法、训练思维方式。要建立这种抽象数据的思维能力是需要练习的,谁都会有个开始的时候,大家一定要多思考,多分析,最关键的是有想法要敢于说出来,抛砖引玉,别人指正的时候再迅速虚心接受,把握好这个信心和谦卑的平衡。

因为数据能力是比较抽象的,一个人的话就很容易走进死胡同里去,一定要交流和矫正。所以我在这里向大家推荐一个小练习:

找一个小伙伴,每天睡觉前抽出五分钟,看一个小的数据总结,比如去年的房地产数据呀,保险业数据呀,统计局数据呀,培养自己的能力,然后第二天抽出十分钟,互相讨论。

有的朋友担心找不到这样的数据集,没关系,现在每个行业都有自己的数据报告,出版业的可以看当当和亚马逊的书籍排行榜,知识付费的可以观测收听量,就连传统行业,到在行、分答这样的平台上约见一下本行业的大咖,根本不愁没有数据可看。

第五点:我们进行一些重点问题答疑。

5.1 下面我们要探讨一下大数据最大的争议:模糊性——大数据要不要追求精确?

舍恩伯格在《大数据时代》一书中提出:大数据具有模糊性,可以不追求精确。但是中文版的译者在序言中就反驳了这个观点,认为大数据不能抛弃精确。很多人对此有争议。

我对此的看法是,这两者并不矛盾,本质上是一个成本权衡的问题:数据越精确,同样可靠的结论需要的数据量就越小,但每个数据的收集成本就越大,我们最终追求的是以最高的效率达到可靠结论,所以如果能做到精确,当然可以,但最重要的是要权衡这样做的成本和收益。

5.2 很多人担心:太过注重相关,不研究内部的因果逻辑,会不会导致盲目跟风模仿,进而导致同质化?

这是一个好问题。

我认为这种担心混淆了两个概念:一个是「相关性」,另一个是「相似性」。

还是拿我做书的经历举个例子:

十年前我们做一本书,可能只参考一两本同类做得好的书籍,做出来的结果就是从标题,到封面,到装帧,都非常相似。好奇的可以查一查十年前的图书市场跟风有多严重。

五年前,一个合格的出版社做一本书,怎么也要参考几十上百本同类书籍,这样抓住的就是读者关心的主题,而不是具体的某一本书。

比如当时黑天鹅做《自控力》这本书,畅销几百万册。

我们没有模仿某本具体的书,我们是通过数据,找到了美国顶尖名校(斯坦福),高效、心理学是关键需求点,和《自控力》进行匹配,这样做出来的书既符合读者需要,也没有很重的模仿痕迹。

现在呢,据说还有公司打算要研发算法,进行分析,一次可以参考上千本书。

这里的关键在于:参考的样本越多,最后做出来的产品,与具体某一个同类产品的相似性反而越小。

所以大数据的道理是,样本越多,相似性越低,相关性越高。

现在确实存在同质化的现象,但如果你回看十年,会发现已经改善了很多。

最后啊,我再重复一下今天的实用思维技巧:

一、 多注重相关性,不要盲目建立因果关系。

二、利用全样本,多练习数据理解力。方法就是下载一个「国务院」app,找一个小伙伴,每晚花五分钟,看一篇里面的数据报告,第二天花十分钟讨论。

三、大数据要不要精确,主要不是看技术,是看成本。

四、样本越多,相似性越低,相关性越高。备案号:YXA1gyGjErYFPvONYElHgXxm

添加评论