3

用Hive玩转维基百科

众所周知,Hadoop提供了基于廉价硬件实现大规模并行处理的能力,利用这套技术模仿谷歌存储并计算整个互联网也不是难事。不过,简单的查询都要写MapReduce代码,对于商业用户实在不怎么友好,毕竟,程序猿不是谁都可以当的。为了解决这个问题,Hive应运而生。本质上,Hive是一个… 继续阅读

2

使用百度开放云分析网站日志

网站日志包含用户访问信息,通过日志分析我们可以了解网站的访问量、网页访问次数、网页访问人数、频繁访问时段等等,以便获取用户行为以优化网站的商业价值。由于网站每天会产生海量的日志,非常适合使用百度MapReduce(简称BMR)这样的托管Hadoop服务。同时,BMR集成了Hive… 继续阅读

0

初探DocumentDB

为什么需要NoSQL 凭借着结构化数据模型以及直观易学的SQL语言,关系数据库技术已经承载了多年的风雨。随着互联网以及物联网的高速发展,超大规模数据处理、非结构化数据、非固定schema等新需求往往让关系数据库技术力不从心。NoSQL技术应运而生,特意从水平线性扩容、灵活的数据结… 继续阅读

1

大数据时代的数据治理

随着移动互联网、云计算、超速互联网等基础设施的高速发展,海量的数据已经以爆炸的方式呈现在我们面前,成为对数据拥有的企业而言实实在在的看的见摸的着的一项资产。越来越多创新专家们正挑灯夜战,希望将这些资产转化成有价值的东西,进而改变整个商业世界。

内存数据库技术

很多年前就接触过基于Java的内存数据库(In Memory Database),由于数据放在内存中计算,不但可以节省磁盘I/O开销,而且可以用哈希取代B+树建立索引,与传统数据库管理系统而言效率自然要高出一个数量级。同时,使用这些基于Java的内存数据库仅仅需要引用一个jar包… 继续阅读