2

为什么开源开放的大数据平台才能成功

自从工业革命开始,创新的浪潮席卷全球,新观念、新工艺、新装置不断涌现,通过各种媒介到达使用者。不过,为什么某些创新能得到认可并广泛采用,而另一些则在普及之前便慢慢淡出了人们的视野?

罗杰斯(Everett Rogers)通过对卫生、农业、教育、机械等各种领域中创新普及的研究,提出了创新扩散(Diffusion of Innovations)理论,系统性地介绍了影响创新传播的各种因素。

罗杰斯认为采纳者是主要因素之一,可以归为几类:

  1. 创新者(Innovator):勇于冒险的组群,热衷于尝试新鲜事物,甚至失败也在所不惜。
  2. 早期采用者(Early Adopter):相对比较谨慎,通过主观判断来决定是否采用创新,独具慧眼运用新技术来驱动主营业务,往往是意见领袖。
  3. 早期大众(Early Majority):需要通过深思熟虑以及参考风评才会接纳新鲜事物,花费的时间要远远长于创新者和早期采用者,很少居于意见领袖的地位。
  4. 晚期大众(Late Majority):对创新往往持高度怀疑态度,非要等到大多数人都采纳了才会采取行动。
  5. 落后者(Laggard):因循守旧,拒绝改变。

创新扩散理论由下图所示:

open-big-data-platform-01

如火如荼的大数据作为一种创新也可以用这个模型描述:

  1. 当互联网蓬勃发展的时候,人们突然发觉传统企业软件已经无法处理海量数据了,以Google为首的互联网公司提出了基于廉价商业硬件水平扩展的创新,而Yahoo、Facebook、LinkedIn、Twitter等通过开源的方式把大数据系统实现出来继而发扬光大,都是大数据的创新者。
  2. 国内的以百度为代表的互联网公司,在评估了Hadoop、Spark这样的大数据技术以后,经过改良广泛应用在搜索和广告业务上,并且在国内也开始推广,成为大数据技术的意见领袖。
  3. 在看到百度等公司的大数据实践之后,国内金融、能源、运输、的传统企业也逐渐了解到大数据带来的竞争优势,开始从互联网公司输入技术,搭建自己的在线广告交易系统、日志分析平台、基因分析系统等。

目前大数据在中国市场大抵是传播到早期大众阶段,不少企业联系我们希望运用大数据结合具体业务以寻找新的增长点甚至改变业务模式,毕竟,成功掌握大数据技能的公司可以掌握竞争优势,而竞争对手也都在评估和部署的过程中,时不我待。

在大数据的传播过程中开源起到了至关重要的作用,下图罗列了主要开源大数据产品的发展历程:

open-big-data-platform-02

2004年至2009年是开源大数据产品的萌芽期。Google早年发表了MapReduce、Google File System、Bigtable论文,由开源社区完成了Hadoop系统的孵化以及Pig、Hive、HBase等应用。Amazon的Dynamo论文也帮助了NoSQL领域的开拓。

2010年开始,开源大数据产品呈现了井喷:

  1. Google的Dremel论文引发了Presto、Drill、Impala等SQL on Hadoop的应用,大大降低了大数据处理的门槛,帮助用户分析过去发生了什么。
  2. Storm、S4、Samza、MillWheel等流式计算弥补了之前批处理时效性不佳的短板,帮助用户了解现在正在发生什么。
  3. Mahout、Caffe、TensorFlow、Paddle等机器学习和深度学习,帮助用户预测将来会发生什么。
  4. Spark、Flink等新兴的大数据平台也正在完善各自的生态,开始与Hadoop展开良性竞争。

特别要指出的一点,那就是国内互联网公司对开源产品也贡献了自己的一份力量,比如百度在2016年世界大会上正式宣布开源深度学习平台Paddle,其品质也得到了业界的肯定。

大数据创新之所以如此迅猛地发展,开源在传播中起到了至关重要的作用,因为开源非常符合罗杰斯所定义的影响创新扩散速度的五个因素:

  1. 相对优势:开源大数据产品基本都是基于廉价商用硬件且免费,相对为定制化硬件开发的传统企业级数据平台,性价比优势是相当明显的,同时也不用担心供应商锁定(Vendor Lock In)。
  2. 兼容性:开源大数据产品覆盖了数据收集、存储、分析等全部环节,并且有多款产品支持SQL接口,使得开发者体验有了延续;同时,NoSQL成熟之后的NewSQL理性回归,更是向开发者示好。
  3. 复杂性:通过SQL on Hadoop等应用降低了门槛,现有开发技能得以留存。基于MPP架构的OLAP系统,本身就提供了兼容OLTP的接口。此外,社区演化开源产品速度很快,不停有新的特性来降低复杂性。
  4. 可试性:免费试用满意了再付钱,分阶段采用的开源大数据产品比起那些一锤子的买卖要更有亲和力。开源产品在这点上做得不能更好了,连源代码都给你看了,你还在等什么呢 J
  5. 可观察性:创新的结果越容易观察到,越容易引起关注和讨论,以至采纳者越容易接受它。当知名互联网公司都使用开源大数据产品运营日常业务,还有什么比这个更有说服力的?

Jason Dedrick和Joel West在Why Firms Adopt Open Source Platforms论文中也提出了类似观点。可以说,开源是大数据的新常态。

当然,天下没有免费的午餐,使用开源大数据系统是有代价的。根据多年客户经验,在采用开源大数据系统时候有以下挑战:

  1. 选型困难:开源产品林林总总,同一个领域就有多个候选,导致用户选择困难。下图是一个不完全统计,仅仅数据仓库就有十几个产品:
    open-big-data-platform-03
  2. 运维成本:开源产品可以快速实现原型,不过要保证24x7x365运维并不容易,有人调侃道说学习了两个月Hadoop运维的人才开口50万年薪但还是很难拒绝。
  3. 弹性扩容:自行搭建几个节点的大数据平台并不困难,但是由于业务增长扩充集群,不得不走整个申请、预算、采购、安装、调试等流程,周期太长。同时,要缩容就更是困难了。
  4. 按需购买:比如Kafka这样的事件流服务,如果搭在集群上,无论是否收发消息,这个集群的资源都是被占用的,需要按照集群收费成本不低。如果能够使用百度Kafka这样的托管服务,按照收发的消息来付费则要经济划算得多。
  5. 缺乏整合:开源大数据系统在某些领域很优秀,但是在另一些领域却没有太大热情,比如服务于商务智能场景的关系型数据仓库方面成熟产品较少,所以亚马逊推出了RedShift而百度提供了Palo,以结合处理弱结构化数据的Hadoop,组建现代数据仓库。

为了迎接以上挑战,百度开放云提供的天算大数据平台,有以下特性:

  • 开源开放:提供开源产品托管服务(Hadoop托管集群、Elasticsearch托管集群、Kafka多租户托管服务、Paddle托管集群等)或者接口完全兼容产品(比如Palo兼容MySQL接、BOS兼容HDFS接口、IoT服务兼容MQTT协议等),方便互联网公司和传统企业平滑迁移,用户无需担心被平台绑定。
  • 产品先进:强化开源产品,让开源产品更稳定、更高效、更安全,让用户聚焦业务而不是修复缺陷和运营。

天算大数据平台提供的产品在百度内部久经考验,支撑了20多个用户过亿产品,吃了自己的狗粮(Eat Your Own Dogfood)的产品更适合企业部署生产环境。

open-big-data-platform-04

此外,开源开放的另一个优势就是能够轻松与其他产品集成,比如世界领先的商务智能工具Qlik Sense和Qlik View可以通过MySQL的ODBC驱动连接百度Palo,通过拖拖拽拽就能够分析海量数据,所以百度与Qlik很快成为了技术合作伙伴。下图就是通过Qlik来可视化Palo中海量行为日志的截图:

open-big-data-platform-05

总之,大数据的传播并非朝夕之功,除了需要开源这样的催化剂,更需要每个人的努力实践,才能使得商业成功甚至是文明的进步。

 



张 琪

2 Comments

发表评论

电子邮件地址不会被公开。 必填项已用*标注