Hadoop+Spark大数据分析实战
上QQ阅读APP看书,第一时间看更新

前言

如今大数据技术已广泛应用于金融、医疗、教育、电信、政府等领域。各个行业都积累了大量的历史数据,并不断产生大量新数据,数据的种类不断增多,数据体量也急剧增长,数据计量单位已经发展到PB、EB、ZB、YB级甚至BB、NB、DB级,传统的数据存储、管理、分析技术已经无法满足大数据的处理要求。大数据分析不同于传统的数据处理方式,需要通过分布式存储和分布式运算来实现,这也催生了优秀的大数据处理框架和生态组件的出现,Hadoop便是最具代表性的大数据处理生态系统框架,Spark则是更为高效的数据处理框架,二者的结合可以为大数据分析和机器学习提供可靠且高效的解决方案。许多大型互联网公司,如谷歌、阿里巴巴、百度、京东等都急需掌握大数据技术人才,大数据技术人才出现了供不应求的状况。

写作思路

本书从大数据开发和大数据分析岗位需求出发,力求从Hadoop生态圈和Spark生态系统全面解析每个组件。Hadoop框架方面,包括大数据平台搭建、Hadoop各典型组件的实战应用、新版本的集群配置和高可用特性、Hive和HBase的搭建与实战等。Spark框架方面,包括Spark框架数据处理等的基础知识、机器学习实战应用、集群环境搭建,同时包括常用的Shell命令、API操作。本书最后安排了两个综合项目实战案例,一方面用来对Hadoop+Spark框架进行大数据开发和大数据分析的基础内容进行巩固和提高,另一方面,结合电影评论分析和旅游评论分析这样的实际场景,使读者能够把握真实的大数据开发或大数据分析应用项目的技术内容,从而对大数据分析的典型流程有清晰的理解,完成从数据采集、数据分析到数据可视化各个环节的全面掌握。全书实战操作和应用案例丰富,每一个知识点都讲得十分细致,让读者能够轻松地步入大数据开发工程师的大门。

关于本书

本书是一本关于大数据平台应用和大数据分析方面的实战书籍,知识面比较广,涵盖整个Hadoop生态系统主流的大数据开发技术,以及用于数据实时处理的Spark框架。力从实践操作讲起,尽量去除那些影响读者理解的纯理论内容。等基本的操作已经掌握以后,再回过头来讲解与实战相关的核心理论知识。所以,本书讲解的方法是先动手实践再理解理论。首先基于目前新版本的Hadoop框架展开,采用Hadoop 3.2.2版本阐述大数据平台搭建和开发方面的内容。随着Hadoop生态系统的成长,Hadoop已经不再是一个简单的数据分布式存储平台和工具,已经形成一个完整的Hadoop生态圈。本书全面讲解Hadoop生态圈各组件的核心知识和操作方法。然后,系统介绍Spark框架搭建和操作,并结合经典的机器学习算法,讲解基于Spark平台的大数据分析技术。最后通过两个综合实战项目来体现大数据分析的完整流程。

本书采用先上手实践,后归纳和学习理论知识的思路编写,读者可以快速上手基于Hadoop和Spark的大数据开发应用,读者还可以对照书中的步骤成功搭建属于自己的大数据集群,并独立完成项目开发。书中提供了大数据分析的详细步骤,并配套了源代码。

本书内容

全书共14章,第1章讲解Hadoop框架及新版本特性,并详细讲解大数据环境的准备工作,包括Linux操作系统的安装、SSH工具使用和配置等;第2章讲解Hadoop伪分布式的安装和开发体验,使读者熟悉Hadoop大数据开发两大核心组件,即HDFS和MapReduce;第3~12章讲解Hadoop生态系统各框架HDFS、MapReduce、输入输出、Hadoop集群配置、HA高可用集群、HBase、Hive、数据实时处理系统Flume、Spark框架数据处理等的基础知识、机器学习实战应用、集群环境搭建,同时包括常用的Shell命令、API操作等,并通过实际操作加深对各个框架的理解与应用;第13~14章分别通过影评分析、旅游酒店评价分析实战项目巩固所学知识,案例涉及自然语言处理和数据可视化入门内容,使读者掌握的技术更加全面。

配套资源下载

本书配套资源包括源码、PPT课件、开发环境、答疑服务,可用微信扫描下面的二维码获取,也可按扫描后的页面提示把下载链接转发到自己的邮箱中下载。如果有疑问和建议,请联系booksaga@163.com,邮件主题为“Hadoop+Spark大数据分析实战”。

适合阅读本书的读者

本书可作为大数据分析初学者的入门指导书、大数据开发人员的参考用书,也可以作为高校大数据平台搭建或大数据开发课程的参考教材。学习本书要求读者有一定的Java编程基础,并掌握Linux系统的基础知识。

作者

2022年4月