Hadoop Data Analytics PDF 文档

小夏 科技 更新 2024-03-02

通过提供分布式数据存储和并行计算框架,Hadoop已经从集群计算的抽象发展成为大数据的操作系统。 本书旨在通过以可读和直观的方式提供集群计算和分析的概述,为数据科学家深入了解特定主题领域铺平道路,从数据科学家的角度介绍Hadoop集群计算和分析。 本书分为两部分,第一部分从非常高的层次介绍了分布式计算,并讨论了如何在集群上运行计算; 第二部分重点介绍数据科学家应该知道的工具和技术,以支持各种分析和大规模数据管理。

本书适合数据科学领域的从业者,以及对数据分析感兴趣的研究人员。

大数据已经成为一个流行语。 人们用它来描述数据驱动应用程序中令人兴奋的新工具和技术。 这些应用为我们带来了新的计算方式。 令统计学家懊恼的是,这个术语似乎是随意使用的,其范围甚至包括在大型数据集上使用众所周知的统计技术**。 虽然大数据已经成为一个流行语,但现实情况是,现代分布式计算技术可以分析比过去的“典型”数据集大得多的数据集,而且结果更令人印象深刻。

然而,分布式计算本身并不等同于数据科学。 互联网带来了快速增长的数据集,这些数据集反过来又推动了模型(“更多的数据比更好的算法更好”1),数据产品已成为一种新的经济范式。 对大型跨域异构数据集进行建模的巨大成功(例如,Nate Silver 2008 年使用魔术等大数据技术在美国的结果)导致了数据科学价值的实现,并吸引了大量从业者进入该领域。

通过提供分布式数据存储和并行计算框架,Hadoop已经从集群计算的抽象发展成为大数据操作系统。 Spark 在构建时就考虑到了这一点,使数据科学家能够更轻松地使用集群计算。 然而,不了解分布式计算的数据科学家和分析师可能会觉得这些工具是为程序员而不是分析师准备的。 这是因为我们需要从根本上改变我们对管理和计算数据的思考方式,以便我们可以从串行转向并行。

本书旨在通过提供可读且直观的集群计算和分析介绍,帮助数据科学家实现这种思维方式的转变。 我们将介绍用于数据分析的分布式计算中涉及的许多概念、工具和技术,为更深入地了解特定领域铺平道路。

目录。 前言。

第 1 部分:分布式计算简介。

第 1 章:数据产品时代。

1.1 什么是数据产品。

1.2 使用 Hadoop 构建大规模数据产品。

1.2.1 利用大型数据集。

1.2.2 数据产品中的 Hadoop

1.3 数据科学管道和 Hadoop 生态系统。

大数据工作流。

1.4 总结。

第 2 章 大数据操作系统。

2.1 基本概念。

2.2 Hadoop架构。

2.2.1 个 Hadoop 集群。

2.2.2 hdfs

2.2.3 yarn

2.3 使用分布式文件系统。

2.3.1 文件系统基本操作。

2.3.2 个 HDFS 文件权限。

2.3.3 其他 HDFS 接口。

2.4 使用分布式计算。

2.4.1 MapReduce:函数式编程模型。

2.4.2 MapReduce:在集群上实现。

2.4.3 多个 mapreduce:作业链。

2.5 将 mapreduce 作业提交到 yarn。

2.6 总结。

第 3 章:Python 框架和 Hadoop 流式处理

3.1 hadoop streaming

3.1.1 使用流式处理对 CSV 数据运行计算。

3.1.2 执行流式处理作业。

3.2 Python 的 MapReduce 框架。

3.2.1 个短语计数。

3.2.2 其他框架。

3.3 MapReduce高级版。

3.3.1 combiner

3.3.2 partitioner

3.3.3 作业链。

3.4 总结。

第 4 章 Spark 内存计算。

4.1 Spark 基础知识。

4.1.1 个 Spark 堆栈。

4.1.2 rdd

4.1.3 使用 RDD 编程。

4.2 基于 PySpark 的交互式 Spark

4.3 编写 Spark 应用程序。

使用 Spark 可视化航班延误。

4.4 总结。

第 5 章 分布式分析和模式。

5.1 个关键计算。

5.1.1 个复合键。

5.1.2 键空格模式。

5.1.3 对带条纹

5.2 设计模式。

5.2.1 总结。

5.2.2 索引。

5.2.3 过滤。

5.3 迈向最后一英里的分析。

5.3.1 模型拟合。

5.3.2 模型验证。

5.4 总结。

第 2 部分:大数据科学的工作流程和工具。

第 6 章 数据挖掘和数据仓库。

6.1 个 Hive 结构化数据查询。

6.1.1 Hive 命令行界面 (CLI)。

6.1.2 Hive 查询语言。

6.1.3 蜂巢数据分析。

6.2 hbase

6.2.1 NoSQL 与列式数据库。

6.2.2 HBase 实时分析。

6.3 总结。

第 7 章 数据收集。

7.1 使用 sqoop 导入关系数据。

7.1.1 从MySQL导入HDFS

7.1.2 从MySQL导入Hive

7.1.3 从MySQL导入HBase

7.2 使用 Flume 获取流数据。

7.2.1 个 Flume 数据流。

7.2.2 使用Flume获取产品展示数据。

7.3 总结。

第 8 章 使用高级 API 进行分析。

8.1 pig

8.1.1 pig latin

8.1.2 种数据类型。

8.1.3 关系运算符。

8.1.4 个用户定义的函数。

8.1.5 猪总结。

8.2 Spark 高级 API

8.2.1 spark sql

8.2.2 dataframe

8.3 总结。

第 9 章 机器学习。

9.1 使用 Spark 进行可扩展的机器学习。

9.1.1 协同过滤。

9.1.2 分类。

9.1.3 聚类。

9.2 总结。

第 10 章摘要:分布式数据科学的实际应用。

10.1 数据产品生命周期。

10.1.1 个数据湖。

10.1.2 数据收集。

10.1.3 计算数据存储。

10.2 机器学习生命周期。

10.3 总结。

附录 A 创建 Hadoop 伪分布式开发环境。

a.1 快速入门。

a.2 设置 Linux 环境。

a.2.1 创建Hadoop用户。

a.2.2 配置SSH

a.2.3 安装 J**A

a.2.4 禁用 IPv6

a.3 安装Hadoop

a.3.1 解压缩。

a.3.2 环境。

a.3.3 Hadoop配置。

a.3.4 格式化 namenode

a.3.5 启动Hadoop

a.3.6 重启Hadoop

附录 B:安装 Hadoop 生态系统产品。

b.1 打包的 Hadoop 发行版。

b.2 自行安装 Apache Hadoop 生态系统产品。

b.2.1 基本安装和配置步骤。

b.2.2 sqoop 特定配置。

b.2.3 个特定于 Hive 的配置。

b.2.4 种特定于 HBase 的配置。

b.2.5 安装 Spark

词汇表。 关于作者。

关于封面。 与图灵联系。

我说完了。 **地址:

相似文章

    如何开始数据分析?

    数据分析入门指南。数据分析是处理数据以识别有意义的模式 趋势和信息的过程。它是现代商业和科学中非常重要的技能,因此开始数据分析需要一定的习和实践。以下是帮助您开始数据分析的详细指南。第一部分 理论基础。了解数据分析的重要性。在开始数据分析之前,需要了解数据分析在商业和科学中的重要性。数据分析不仅可以...

    网站数据分析工具

    数据分析工具,你知道吗?一起来看看吧!.流量 数据分析工具。分析 流量 的数据分析工具,LA统计数据市场覆盖面最大。LA的单一 历史源查询功能。通过这个功能,我可以知道某条流量 最近个月的流量变化,从而更好地掌握每个推广渠道的流量趋势。数据 数据。二 搜索引擎收录 反向链接 PR值 排名综合查询工具...

    TikTok KOL 营销数据分析 量化投资回报率和成功指标

    品牌在做TikTok KOL营销时首先关注的指标之一是受众增长和 度。通过分析合作后的粉丝数量 次数等数据,品牌可以了解合作是否有效吸引了目标受众的注意力,进而评估投资回报率。在 TikTok 上,用户的参与率和参与度是衡量营销活动效果的重要指标。通过分析点赞 评论和分享等数据,品牌可以了解用户如何...

    数据分析的美丽汤

    beautiful soup Beautiful Soup 提供了简单的 Python 样式函数,用于导航 搜索 修改分析树等。它是一个工具箱,通过解析文档为用户提供他们需要抓取的数据,并且由于它很简单,因此编写一个完整的应用程序并不需要太多时间。Beautiful Soup 自动将输入文档转换为 ...

    项目数据分析报告

    随着数字时代的到来,数据分析已成为企业决策的重要依据。项目数据分析报告作为企业决策的重要参考,对项目的成功具有至关重要的影响。本文将从多个方面对项目数据分析报告进行深入探讨 项目数据分析 点击这里查询数据分析...