《大数据时代》读书笔记

终于找到时间细细品味了一下《大数据时代》,感受良多。回想以往,多是从工程师的角度,为大数据的成功案例和技术进步而欣喜不已。而这本书却能够从真实的案例出发,从一定距离客观地分析大数据,在乐观之余总结利弊,引发更深层次的思考。点击这里查看豆瓣的书评。

big-data-a-revolution

下面是一些笔记:

  • 思维变革
    • 全体数据而非随机样本
      • IT技术的长足进步使得人们已经有能力获取并处理大数据,可以逐步取代以前传统的随机采样分析。
    • 混杂而非精确
      • 片面追求精确,会直接导致能够使用的信息量大减。
      • 大数据的简单算法往往比小数据的复杂算法更有效。
    • 不是因果关系,而是相关关系
      • 建立在相关关系分析基础上的预测是大数据的核心。
      • 在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道“是什么”时,我们就会继续向更深层次研究因果关系,找出背后的“为什么”。
  • 商业变革
    • 一切皆可量化
      • 数据化是指一种把现象转变为可制表分析的量化形式的过程。
      • 将世界看做信息,看做可以理解的数据的海洋,为我们提供了一个从未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观。
    • 取之不尽用之不竭的数据创新
      • 数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。
      • 开放数据以及数据集市是为大数据创新服务的新模式。
    • 数据、技术和思维的三足鼎立
      • 大数据价值链由产生数据、提供技术以及创新挖掘三者组成。
      • 数据科学家能够聆听数据的声音。
  • 管理变革
    • 让数据主宰一切的隐忧
      • 隐私、独裁、偏颇、垄断等是首先需要考虑的合规。
    • 责任与自由并举

总体而言,这是一本值得一读的书。下面是结合自己体会的思考:

  • 大数据虽然擅长相关,但是,不探究因果是非常危险的。好比某些股票而言,百度中股票搜索越多该股票的股价就越高,但是没人会根据这个规律去预测股价,因为缺乏基本面的分析,对于另一些股票而言可能搜索越多股价抛盘也越厉害。书中也举了许多被大数据误导的例子,包括中国的大跃进。本质上,相关关系能够给你提个醒,帮助你发现一规律,但是盲目相信规律而漠视完备性,真是傻得可爱。
  • 大数据科学家是一门需要艺术的职业,与之可以比拟的也就是算命先生了:除了要会熟练运用大数据技术(阅人无数),也需要具体情况具体分析(随机应变)。今天的大数据的确做到了以前不能做到的事情,但是更多的是科技进步带来的红利。没有人的因素,拿着个笔记本在那边相马,那还是伯乐和九方皋么?
  • 大数据需要人文关怀。诚然,亚马逊提高了销量,谷歌预测了新人的事业线,但是,人难道真是可以数字化和量化的么?扪心自问,你心中的桃花源是百家争鸣,还是骇客帝国中装在胶囊中的虚拟人生?有技术没文化,真真可怕。

最后,不得不感叹大数据真是蛮有意思的。下图是某同事发送电子邮件的时间分布统计,看起来跟我们有时差似的。

事实是,这位仁兄白天开会没得空,晚上与同事在线讨论以后写邮件总结以便第二天继续开会,昼伏夜出只是因为差得无以复加的work life balance。

 



张 琪