内容简介
全书共9章。1-6章主要介绍了各类大数据平台的部署与应用,包括Hadoop、ZooKeeper、Hbase、Hive和Spark等大数据平台技术。7-9章聚焦数据处理和分析,涵盖数据的分布式存储、分布式计算、数据可视化和数据模型分析等大数据处理和分析方法。通过一定量的实验实践学习,培养学生大数据平台的操作能力和大数据业务的分析能力。本书可以作为各院校统计、大数据、计算机和人工智能等专业本科生和研究生的实践实训教材,也可作为大数据、机器学习和人工智能爱好者的参考用书。
作者介绍
邓辉,工学博士,毕业于西安电子科技大学控制理论与控制工程专业。西安财经大学统计学院数据科学与大数据技术专业专任教师。曾在IBM中国研发中心担任高级软件工程师一职,作为主要开发者参与多个大数据软件项目的研发工作。主持并参与国家级和省部级项目10余项。在国内外知名期刊发表学术论文7篇,其中SCI检索4篇,中文核心1篇,会议论文2篇。
目录
第1章 实验环境的准备 1.1资源下载 1.1.1 Oracle VM VirtualBox的下载与安装 1.1.2下载 Ubuntu 系统镜像 1.2环境实现 1.2.1创建虚拟机 1.2.2安装Ubuntu系统 1.3远程工具的安装和使用 1.3.1 Xshell 1.3.2 Xftp 1.4备份、恢复与克隆 1.4.1备份 1.4.2恢复 1.4.3克隆 本章小结 综合实验 课后习题 第2章 Hadoop的部署与运维 2.1 Hadoop简介 2.2运行环境配置 2.3 单机模式Hadoop 2.3.1单机模式Hadoop的安装与配置 2.3.2测试单机模式Hadoop 2.4伪分布式模式Hadoop 2.4.1伪分布式模式Hadoop的SSH免密码登录设置 2.4.2配置伪分布式模式Hadoop 2.4.3启动伪分布式模式Hadoop 2.4.4测试伪分布式模式Hadoop 2.5集群模式Hadoop 2.5.1机器的准备 2.5.2集群模式Hadoop的SSH免密码登录设置 2.5.3配置集群模式Hadoop 2.5.4启动集群模式Hadoop 2.5.5测试集群模式Hadoop 本章小结 综合实验 课后习题 第3章 ZooKeeper与高可用模式Hadoop 3.1 ZooKeeper简介 3.1.1 ZooKeeper下载与安装 3.1.2配置ZooKeeper 3.1.3启动ZooKeeper 3.2高可用模式Hadoop 3.2.1机器的准备 3.2.2配置高可用模式Hadoop 3.2.3启动高可用模式Hadoop 3.2.4测试高可用模式Hadoop 本章小结 综合实验 课后习题 第4章 Hive数据仓库与Hbase分布式数据库 4.1 Hive数据仓库 4.1.1 Hive的安装与部署 4.1.2 Hive Shell操作 4.2 HBase分布式数据库 4.2.2 HBase的安装部署 4.2.3 HBase Shell的操作 本章小结 综合实验 课后习题 第5章Spark的部署与应用 5.1 Spark简介 5.2 Spark的安装部署 5.2.1单机模式Spark 5.2.2 Standalone Spark 5.2.3 Spark on Yarn 5.2.4 Spark on Mesos 5.3 Spark Shell操作 本章小结 综合实验 课后习题 第6章HDFS与MapReduce 6.1 HDFS121 6.1.1 HDFS简介 6.1.2 HDFS Shell操作 6.1.3 Python调用HDFS API 6.2 MapReduce 6.2.1 MapReduce简介 6.2.2 Python编写MapReduce程序 本章小结 综合实验 课后习题 第7章 数据分析与Python库 7.1数据分析 7.2 NumPy 7.2.1 NumPy简介 7.2.2 NumPy的数据对象 7.2.3 NumPy的基本操作 7.3 Pandas 7.3.1 Pandas 7.3.2 Pandas的数据对象 7.3.3 Pandas的常用基本操作 本章小结 综合实验 课后习题 第8章 数据可视化与数据清洗 8.1 Matplotlib 8.1.1 Matplotlib简介 8.1.2 Matplotlib数据对象 8.1.3散点图 8.1.4柱状图 8.1.5饼图 8.1.6直方图 8.1.7箱线图 8.1.8热力图 8.2数据清洗 8.2.1缺失值的处理 8.2.2异常值的处理 本章小结 综合实验 课后习题 第9章 数据分析模型 9.1分类 9.2回归 9.3聚类 9.4关联 9.5时序 本章小结 综合实验 课后习题 参考文献