当我谈论数据的时候,我在谈论什么

翻开我们的史书,悠悠五千年的岁月,秉笔直书的史学家给我们留下了编年体、纪传体、国别体、纪事本末体等多种历史体裁的记录;朝代更替,兴盛衰败,感慨的同时也有思考。


史学家总是以一种总体的形式来研究一个国家,他们给我们讲述帝王将相以及残酷战争的历史。


但关于人民本身—-这个庞大社会中每个生命个体的成长、细节及其规律,我们没能从史书中看到太多东西,未来的社会不应该也不会是这样的,它还应该是普通人的历史,个体虽留不下痕迹,但群体却可以依托于数据留下规律。

虽然理性化、体系化,富有批判精神和实证精神是西方哲学的特征;而感性、体验、直觉更符合符合东方人的思维方式;尤其是中国传统文化中喜欢用势、道、术对事物的本质进行模糊的归纳总结,鲜有量化概念。


但运用数据量化各种因素这一手段的实现纵观我国历史长河也不乏璀璨明珠。

我国古兵书《孙子兵法》有云:“算则胜利,不算则不胜;多算胜,少算则不胜”,此处的算,就是如何利用数据来量化各种因素。


天时,地利,人和这些都可以用数字来量化,鲲之大不知其几千里也,数据之大,有点而线,有线而面,有面而层次,层层递进。

所有的科学,在抽象的意义上都是数学;所有的判断,在理性的基础上都是统计学。

三百多年前,一个名叫约翰·格朗特(John Graunt)的英国缝纫用品商提出了一个很有新意的方法。他采用了一个新方法推算出鼠疫时期伦敦的人口数,这种方法就是后来的统计学。


作为一门古老的科学,统计学一般认为其学理研究始于古希腊的亚里士多德时代,迄今已有两千三百多年的历史。它起源于研究社会经济问题,在两千多年的发展过程中,已经形成为一个所有收集和分析数据的新方法的综合性名词。

统计学揭示社会规律,而统计学所依赖的是数据,数据之中蕴藏着社会发展的规律。     根据比利时数学家凯特勒的研究发现,以国家为单位,各种犯罪类型的年度总数几乎处于一个恒定的状态。

后来又有统计学家发现,有些城市的自杀率几乎是固定的,即便是跨越了一些历史年代,萧条也好繁荣也罢总有一定数量的自杀事件,就像存在致命的诱惑一样吸引人去自杀。


或许法国数学家泊松的大数定理某种程度上能够解释这一切:“在重复的实验中,随着实验的次数不断增加,事件发生的概率会越来越趋于一个稳定的数值”。


时至今日,人们早已不再认为数据是静止和陈旧的。如今数据已经成为了一种商业资本,一项重要的经济投入,可以创造新的经济利益。


事实上,一旦思维转变过来,数据就能被巧妙地用来激发新产品和新型服务。数据的奥妙只为谦逊、愿意聆听且掌握了聆听手段的人所知。


信息社会所带来的好处是显而易见的:每个人口袋里都揣有一部手机,每台办公桌上都放有一台电脑,每间办公室内都拥有一个大型局域网。但是,信息本身的用处却并没有如此引人注目。


半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息总量的变化还导致了信息形态的变化——量变终于引发了质变。


数据时代的思维变革:不是随机样本,而是全体数据。


人类社会是自然界的一部分,社会的运行是有某种规律可循的,存在精确的数据上的规律,并且不以人的意志为转移,个体的行为是无序的不确定的,但是一旦达到群体就有了某种属性,就存在某种稳定的规律,挖掘、揭示群体行为的规律,而数据就是其中的载体。


利用所有的数据,而不再仅仅依靠一小部分数据。小数据时代的随机采样,最少的数据获得最多的信息,而如今我们已经进入全数据模式,即样本=总体。


我们对数据进行深度探讨时,采样几乎无法达到总体的效果。你无法得到一些微观细节的信息,甚至还会失去对某些特定子类别进行进一步研究的能力。


我们不能满足于正态分布一般中庸平凡的景象。生活中真正有趣的事情经常藏匿在细节之中,而采样分析法却无法捕捉到这些细节。


我们总是习惯把统计抽样看做文明得以建立的牢固基石,就如同几何学定理和万有引力定律一样。但是统计抽样其实只是为了在技术受限的特定时期,解决当时存在的一些特定问题而产生的。


如今技术环境已经有了很大的改善。在某些特定的情况下,我们依然可以使用样本分析法,但这不再是我们分析数据的主要方式。


我们怎么看待使用所有数据和使用部分数据的差别,以及我们怎样选择放松要求并取代严格的精确性,将会对我们与世界的沟通产生深刻的影响。


随着数据技术成为日常生活中的一部分,我们应该开始从一个比以前更大更全面的角度来理解事物,也就是说应该将“样本=总体”植入我们的思维中,彻底改变思维认知方式。


更大的数据源于人本身,数据改造了我们的生活,它能优化、提高、高效化并最终捕捉住利益,那直觉、信仰、不确定性和创意还能扮演什么角色呢?


数据无法教会我们所有事情,只要能帮助我们表现更佳、更富效率、取得进步,就算缺乏深入理解也是很有用的了。


一贯如是地坚持下去才有效力。即使你不明白为什么付出的努力得不到回报,但相比不努力,你要明白你已经在改善事情的结局了。


纽约的弗劳尔和他的“小伙子们”也许并没有圣人圣明的判断力,但他们确实在拯救生命。数据不会即刻提高效率,但经受住时间的考验后,它将生出智慧的结晶

数据分析的影响是这样巨大,以致数据所隐含规律的重要性无论怎样强调也不过分,这就是数据时代:通往计算型的智能社会。


大而化之,不谙“数目字管理”(黄仁宇言)的中国民族的特征,数据时代已经来到我们中间,只是还没有均匀地分布到生活的各个角落,我们不能把自己视野的极限当作世界的极限,做为一个个体的我们,又该如何应对,如何起步,如何融入?

更多内容请关注微信公众号:数据与人

为您推荐

发表评论

您的电子邮箱地址不会被公开。

3条评论