毛姆有一部出名的小说《月亮与六便士》,书名源于朋友的一句玩笑“人们在仰望月亮时常常忘了脚下的六便士”。如果大文豪有机会生活在当下,书名或许可以改作《星空与大数据》,取“人们生活在大数据时代常常忘了头顶还有星空”之意。 我素来对纯粹以统计学数据为依据的研究结果最不当真。数据的确没有骗人,但是数据与数据之间的因缘际会有时却很牵强。比如,一个英国的研究组在《儿童疾病文献》上新近发表了一篇调查报告称,吃母乳的婴儿较之吃配方奶粉的婴儿,长大后更容易进入社会的较高阶层,两者的概率相差24%。尽管研究人员考虑了大脑发育和情感压力等因素,试图解释母乳喂养对推动社会地位的作用,但我依然仅仅会将这份报告看作一份有趣的谈资——谁知道这些婴儿在长大的过程中经历了哪些事情,谁能保证其中的某些共同际遇不是日后远大前程的主要推手? 如果非要在数据甲与数据乙之间找出一些关联来,恐怕不是难事,而且难度越来越低,反正任意数据都可以被日新月异的计算设备、五花八门的程序拿去“练手”,反正总能算出个ABCD来。比如,比大便更脏的n种物质,最近3年七月上旬的最高温度(以上举例纯属虚构,切勿对号入座)。 专业的数据采集、分析和挖掘者大概不会赞同我用如此肤浅的方式来解读大数据,但是对我而言,鸡毛蒜皮的数据都有被计算的价值,这才是大数据时代的厉害,而这未必是一件令人愉悦的事。当所有科学都在迅速变成所谓的“数据科学”,有些科研人员或许能从中找到另一条道路,成为“π型人才”(在自己的学科领域有所专长,又能熟练应用数据科学的研究人员)就多了几分成功的可能。然而,当所有生活都在迅速变成所谓的“数据生活”,你有几分愿意几分不愿意?至少我的不愿意,近来滋长很快。好好看一场球,屏幕下方反复出现“主队被客队先破门时胜负平的概率”云云的提示,当解说员也加入这般“数据分析”的行列中,念叨着“上半场互交白卷时主队胜率多少”的时候,我的脑海里开始浮现机器人足球大战的画面…… (来源:新民晚报) (编辑:admin) |