通过提供分布式数据存储和并行计算框架,Hadoop已经从集群计算的抽象发展成为大数据的操作系统。 本书旨在通过以可读和直观的方式提供集群计算和分析的概述,为数据科学家深入了解特定主题领域铺平道路,从数据科学家的角度介绍Hadoop集群计算和分析。 本书分为两部分,第一部分从非常高的层次介绍了分布式计算,并讨论了如何在集群上运行计算; 第二部分重点介绍数据科学家应该知道的工具和技术,以支持各种分析和大规模数据管理。
本书适合数据科学领域的从业者,以及对数据分析感兴趣的研究人员。
大数据已经成为一个流行语。 人们用它来描述数据驱动应用程序中令人兴奋的新工具和技术。 这些应用为我们带来了新的计算方式。 令统计学家懊恼的是,这个术语似乎是随意使用的,其范围甚至包括在大型数据集上使用众所周知的统计技术**。 虽然大数据已经成为一个流行语,但现实情况是,现代分布式计算技术可以分析比过去的“典型”数据集大得多的数据集,而且结果更令人印象深刻。
然而,分布式计算本身并不等同于数据科学。 互联网带来了快速增长的数据集,这些数据集反过来又推动了模型(“更多的数据比更好的算法更好”1),数据产品已成为一种新的经济范式。 对大型跨域异构数据集进行建模的巨大成功(例如,Nate Silver 2008 年使用魔术等大数据技术在美国的结果)导致了数据科学价值的实现,并吸引了大量从业者进入该领域。
通过提供分布式数据存储和并行计算框架,Hadoop已经从集群计算的抽象发展成为大数据操作系统。 Spark 在构建时就考虑到了这一点,使数据科学家能够更轻松地使用集群计算。 然而,不了解分布式计算的数据科学家和分析师可能会觉得这些工具是为程序员而不是分析师准备的。 这是因为我们需要从根本上改变我们对管理和计算数据的思考方式,以便我们可以从串行转向并行。
本书旨在通过提供可读且直观的集群计算和分析介绍,帮助数据科学家实现这种思维方式的转变。 我们将介绍用于数据分析的分布式计算中涉及的许多概念、工具和技术,为更深入地了解特定领域铺平道路。
目录。 前言。
第 1 部分:分布式计算简介。
第 1 章:数据产品时代。
1.1 什么是数据产品。
1.2 使用 Hadoop 构建大规模数据产品。
1.2.1 利用大型数据集。
1.2.2 数据产品中的 Hadoop
1.3 数据科学管道和 Hadoop 生态系统。
大数据工作流。
1.4 总结。
第 2 章 大数据操作系统。
2.1 基本概念。
2.2 Hadoop架构。
2.2.1 个 Hadoop 集群。
2.2.2 hdfs
2.2.3 yarn
2.3 使用分布式文件系统。
2.3.1 文件系统基本操作。
2.3.2 个 HDFS 文件权限。
2.3.3 其他 HDFS 接口。
2.4 使用分布式计算。
2.4.1 MapReduce:函数式编程模型。
2.4.2 MapReduce:在集群上实现。
2.4.3 多个 mapreduce:作业链。
2.5 将 mapreduce 作业提交到 yarn。
2.6 总结。
第 3 章:Python 框架和 Hadoop 流式处理
3.1 hadoop streaming
3.1.1 使用流式处理对 CSV 数据运行计算。
3.1.2 执行流式处理作业。
3.2 Python 的 MapReduce 框架。
3.2.1 个短语计数。
3.2.2 其他框架。
3.3 MapReduce高级版。
3.3.1 combiner
3.3.2 partitioner
3.3.3 作业链。
3.4 总结。
第 4 章 Spark 内存计算。
4.1 Spark 基础知识。
4.1.1 个 Spark 堆栈。
4.1.2 rdd
4.1.3 使用 RDD 编程。
4.2 基于 PySpark 的交互式 Spark
4.3 编写 Spark 应用程序。
使用 Spark 可视化航班延误。
4.4 总结。
第 5 章 分布式分析和模式。
5.1 个关键计算。
5.1.1 个复合键。
5.1.2 键空格模式。
5.1.3 对带条纹
5.2 设计模式。
5.2.1 总结。
5.2.2 索引。
5.2.3 过滤。
5.3 迈向最后一英里的分析。
5.3.1 模型拟合。
5.3.2 模型验证。
5.4 总结。
第 2 部分:大数据科学的工作流程和工具。
第 6 章 数据挖掘和数据仓库。
6.1 个 Hive 结构化数据查询。
6.1.1 Hive 命令行界面 (CLI)。
6.1.2 Hive 查询语言。
6.1.3 蜂巢数据分析。
6.2 hbase
6.2.1 NoSQL 与列式数据库。
6.2.2 HBase 实时分析。
6.3 总结。
第 7 章 数据收集。
7.1 使用 sqoop 导入关系数据。
7.1.1 从MySQL导入HDFS
7.1.2 从MySQL导入Hive
7.1.3 从MySQL导入HBase
7.2 使用 Flume 获取流数据。
7.2.1 个 Flume 数据流。
7.2.2 使用Flume获取产品展示数据。
7.3 总结。
第 8 章 使用高级 API 进行分析。
8.1 pig
8.1.1 pig latin
8.1.2 种数据类型。
8.1.3 关系运算符。
8.1.4 个用户定义的函数。
8.1.5 猪总结。
8.2 Spark 高级 API
8.2.1 spark sql
8.2.2 dataframe
8.3 总结。
第 9 章 机器学习。
9.1 使用 Spark 进行可扩展的机器学习。
9.1.1 协同过滤。
9.1.2 分类。
9.1.3 聚类。
9.2 总结。
第 10 章摘要:分布式数据科学的实际应用。
10.1 数据产品生命周期。
10.1.1 个数据湖。
10.1.2 数据收集。
10.1.3 计算数据存储。
10.2 机器学习生命周期。
10.3 总结。
附录 A 创建 Hadoop 伪分布式开发环境。
a.1 快速入门。
a.2 设置 Linux 环境。
a.2.1 创建Hadoop用户。
a.2.2 配置SSH
a.2.3 安装 J**A
a.2.4 禁用 IPv6
a.3 安装Hadoop
a.3.1 解压缩。
a.3.2 环境。
a.3.3 Hadoop配置。
a.3.4 格式化 namenode
a.3.5 启动Hadoop
a.3.6 重启Hadoop
附录 B:安装 Hadoop 生态系统产品。
b.1 打包的 Hadoop 发行版。
b.2 自行安装 Apache Hadoop 生态系统产品。
b.2.1 基本安装和配置步骤。
b.2.2 sqoop 特定配置。
b.2.3 个特定于 Hive 的配置。
b.2.4 种特定于 HBase 的配置。
b.2.5 安装 Spark
词汇表。 关于作者。
关于封面。 与图灵联系。
我说完了。 **地址: