Hadoop+Spark大数据分析实战
上QQ阅读APP看书,第一时间看更新

1.1 什么是大数据

想了解什么是大数据?首先需要知道什么是数据,其实文本、声音、图片、视频都是数据。例如你用手机数据线连上电脑的时候上传的都是数据。

那么大数据如何定义呢?大数据指的就是数据体量达到了一定的级别,而我们现有的算法和工具无法在合理的时间内给予处理,这样的数据才可以称为大数据。当然,大数据还包括多样性(Variety)、价值密度低(Valueless)、处理速度快(Velocity)等特点。但最重要的特点还是数据量(Volume)要大。我们知道描述一个物品很大的时候是需要带上单位的。比方说,姚明很高,身高230。这样描述显然不准确,是cm(厘米)还是mm(毫米),如果230mm,那它只是个模型。同样道理,大数据也需要带有度量单位,下面是一些数据单位之间的换算关系。

● 1B(Byte,字节)=8bit

● 1KB(Kilobyte,千字节)=1024B

● 1MB(Mega byte,兆字节,简称兆)=1024KB

● 1GB(Giga byte,吉字节,又称千兆)=1024MB

● 1TB(Tera byte,万亿字节,太字节)=1024GB,其中1024=210(2的10次方)

● 1PB(Peta byte,千万亿字节,拍字节)=1024TB

● 1EB(Exa byte,百亿亿字节,艾字节)=1024PB

● 1ZB(Zetta byte,十万亿亿字节,泽字节)= 1024 EB

● 1YB(Yotta byte,一亿亿亿字节,尧字节)= 1024 ZB

● 1BB(Bronto byte,一千亿亿亿字节)= 1024 YB

● 1NB(Nona byte)= 1024BB

● 1DB(Dogga byte)= 1024NB

大家使用迅雷下载电影,下载速度显示的500KB,B指的就是基本单位,即字节byte。其实大家对KB、MB、GB应该都是有一定的概念,例如使用手机拍一幅帅照大约1MB左右,一部电影差不多是几个GB,甚至大家对TB也有概念,大家现在买移动硬盘基本都是TB级的容量了。而真正的大数据是需要至少达到这些单位的级别的,比如PB、EB、ZB、YB、NB等。

其实,这些单位是为大数据而生的,本来没有这些单位。1PB就相当于美国国家图书馆藏书的所有内容之和。而Google每天都在处理20PB的数据。一般认为达到PB级别的数据才可以称为大数据。这里最大的单位是YB,有家统计机构给出1YB相当于世界上所有海滩上的沙子粒数总和,准不准确无法验证,这只是说明数据体量达到了一个海量的级别。当然,还有更大的单位没有列出,比如比YB更大还有NB,等等,数据增长不停止的话,单位定义不会停止。