链接:https://pan.baidu.com/s/1XPicUWeYqztMjvwwwSlnCA?pwd=a51q
【资料图】
提取码:a51q
本书基础理论、应用开发以及实际案例相结合,围绕Hadoop、Spark生态圈循序渐进地介绍关于大数据技术领域中的基础知识、应用开发技术和基于Spark的常见机器学习算法,最后以两个实战案例全面、系统地应用了本书介绍的基础知识和应用开发方法。全书共14章,分别为大数据概述、Hadoop简介及安装部署、HDFS、MapReduce计算框架、Hive数据仓库、HBase分布式数据库、Spark基础、Spark RDD弹性分布式数据集、Spark SQL、Spark Streaming实时计算框架、Spark Streaming与Flume、Kafka的整合、Spark MLlib 机器学习、实战案例——分布式优惠券后台应用系统和实战案例——新闻话题实时统计分析系统,书中的每个知识点都有相应的实现代码和实例。 本书主要面向广大从事大数据分析、应用开发、机器学习、数据挖掘的专业人员
目录
第1章大数据概述
1.1大数据的研究背景
1.2大数据的定义及其技术特点
1.2.1大数据的定义
1.2.2大数据的基本特点
1.2.3典型的大数据处理需求与计算特征
1.3大数据处理的主要技术特点与难点
1.4研究大数据的意义
1.5本章小结
第2章Hadoop简介及安装部署
2.1Hadoop简介及生态体系
2.2Hadoop集群架构
2.3Hadoop集群运行环境搭建
2.3.1Hadoop安装配置过程
2.3.2验证Hadoop的安装
2.4本章小结
第3章HDFS
3.1相关基本概念
3.2HDFS存储架构
3.2.1HDFS写入流程
3.2.2HDFS读取流程
3.3HDFS的优点与缺点
3.3.1HDFS的优点
3.3.2HDFS的缺点
3.4HDFS Shell常用命令
3.5HDFS的Java API
3.6本章小结
第4章MapReduce计算框架
4.1MapReduce核心思想
4.2MapReduce的工作原理
4.3MapReduce的运行机制
4.4MapReduce数据本地化
4.5MapReduce编程
4.5.1MapReduce运行模式
4.5.2MapReduce编程组件与数据类型
4.6MapReduce编程示例
4.6.1单词计数
4.6.2倒排索引
4.7本章小结