深度:Hadoop对Spark五大维度正面比拼报告!大数据应用

来源:互联网 / 作者:SKY / 2018-06-04 15:08 / 点击:
为了增加混淆,Spark和Hadoop经常与位于HDFS,Hadoop文件系统中的Spark处理数据一起工作。但是,它们都是独立个体,每一个体都有自己的优点和缺点以及特定的商业

每年,市场上都会出现种种不同的数据管理规模、类型与速度表现的分布式系统。在这些系统中,Spark和hadoop是获得最大关注的两个。然而该怎么判断哪一款适合你?

如果想批处理流量数据,并将其导入HDFS或使用Spark Streaming是否合理?如果想要进行机器学习和预测建模,Mahout或MLLib会更好地满足您的需求吗?

深度:Hadoop对Spark五大维度正面比拼报告!

为了增加混淆,Spark和Hadoop经常与位于HDFS,Hadoop文件系统中的Spark处理数据一起工作。但是,它们都是独立个体,每一个体都有自己的优点和缺点以及特定的商业案例。

本文将从以下几个角度对Spark和Hadoop进行对比:体系结构,性能,成本,安全性和机器学习。

什么是Hadoop?

Hadoop在2006年开始成为雅虎项目,随后成为顶级的Apache开源项目。它是一种通用的分布式处理形式,具有多个组件:

HDFS(分布式文件系统),它将文件以Hadoop本机格式存储,并在集群中并行化;

YARN,协调应用程序运行时的调度程序;

MapReduce,实际并行处理数据的算法。

Hadoop使用Java搭建,可通过多种编程语言访问,用于通过Thrift客户端编写MapReduce代码(包括Python)。

除了这些基本组件外,Hadoop还包括:

Sqoop,它将关系数据移入HDFS;

Hive,一种类似SQL的接口,允许用户在HDFS上运行查询;

Mahout,机器学习。

除了将HDFS用于文件存储之外,Hadoop现在还可以配置为使用S3存储桶或Azure blob作为输入。

它可以通过Apache发行版开源,也可以通过Cloudera(规模和范围最大的Hadoop供应商),MapR或HortonWorks等厂商提供。

什么是Spark?

Spark是一个较新的项目,最初于2012年在加州大学伯克利分校的AMPLab开发。它也是一个顶级Apache项目,专注于在群集中并行处理数据,但最大的区别在于它在内存中运行。

鉴于Hadoop读取和写入文件到HDFS,Spark使用称为RDD,弹性分布式数据集的概念处理RAM中的数据。 Spark可以以独立模式运行,Hadoop集群可用作数据源,也可以与Mesos一起运行。在后一种情况下,Mesos主站将取代Spark主站或YARN以进行调度。

Spark是围绕Spark Core搭建的,Spark Core是驱动调度,优化和RDD抽象的引擎,并将Spark连接到正确的文件系统(HDFS,S3,RDBM或Elasticsearch)。有几个库在Spark Core上运行,包括Spark SQL,它允许在分布式数据集上运行类似SQL的命令,用于机器学习的MLLib,用于图形问题的GraphX以及允许连续流式传输的流式传输记录数据。

Spark有几个API。原始界面是用Scala编写的,基于数据科学家的大量使用,还添加了Python和R端点。 Java是编写Spark作业的另一种选择。

Databricks由也Spark创始人Matei Zaharia创建的,致力于提供基于 Spark 的云服务,可用于数据集成,数据管道等任务

1. 架构

Hadoop

首先,所有传入HDFS的文件都被分割成块。根据配置的块大小和复制因子,每个块在整个群集中被复制指定的次数。该信息被传递给NameNode,它跟踪整个集群中的所有内容。 NameNode将这些文件分配给一些数据节点,然后将这些文件写入其中。 2012年实施高可用性,允许NameNode故障转移到备份节点上,以跟踪群集中的所有文件。

MapReduce算法位于HDFS之上,由JobTracker组成。一旦应用程序以其中一种语言编写,Hadoop接受JobTracker,然后分配工作(可包括计算单词和清理日志文件的任何内容),以便在存储在Hive仓库中的数据之上运行HiveQL查询)到侦听其他节点的TaskTracker。

YARN分配JobTracker加速并监控它们的资源,以提高效率。然后将所有来自MapReduce阶段的结果汇总并写入HDFS中的磁盘。

Spark

除了计算在内存中执行并在那里存储直到用户积极保存它们之外,Spark处理的工作方式与Hadoop类似。最初,Spark从HDFS,S3或其他文件存储中的文件读取到名为SparkContext的已建立机制。除此之外,Spark创建了一个名为RDD或弹性分布式数据集的结构,它表示一组可并行操作的元素的不可变集合。

随着RDD和相关操作的创建,Spark还创建了一个DAG或有向无环图,以便可视化DAG中的操作顺序和操作之间的关系。每个DAG都有阶段和步骤;通过这种方式,它与SQL中的解释计划类似。

您可以对RDD执行转换,中间步骤,操作或最终步骤。给定转换的结果进入DAG,但不会保留到磁盘,但操作的结果会将内存中的所有数据保留到磁盘。

Spark中的一个新抽象是DataFrames,它是在Spark 2.0中作为RDD的配套接口开发的。这两者非常相似,但DataFrames将数据组织成命名列,类似于Python的熊猫或R包。这使得它们比RDD更方便用户,RDD没有类似的一系列列级标题引用。 SparkSQL还允许用户像关系数据存储中的SQL表一样查询DataFrame。

2. 性能

发现Spark在内存中运行速度快100倍,在磁盘上运行速度快10倍。在十分之一的机器上,它也被用于对100 TB数据进行排序,比Hadoop MapReduce快3倍。特别发现Spark在机器学习应用中更快,例如朴素贝叶斯和k-means。

由处理速度衡量的Spark性能已经发现比Hadoop更优,原因如下:

每次运行MapReduce任务的选定部分时,Spark都不会受到输入输出问题的束缚。事实证明,应用程序的速度要快得多

Spark的DAG可以在步骤之间进行优化。 Hadoop在MapReduce步骤之间没有任何周期性连接,这意味着在该级别不会发生性能调整。

但是,如果Spark与其他共享服务在YARN上运行,则性能可能会降低并导致RAM开销内存泄漏。出于这个原因,如果用户有批处理的用例,Hadoop被认为是更高效的系统。

3. 成本

Spark和Hadoop都可以作为开源Apache项目免费获得,这意味着您可以以零安装成本运行它。但是,重要的是要考虑总体拥有成本,其中包括维护,硬件和软件购买以及雇用了解群集管理的团队。内部安装的一般经验法则是Hadoop需要更多的磁盘内存,而Spark需要更多的内存,这意味着设置Spark集群可能会更加昂贵。此外,由于Spark是较新的系统,因此它的专家更为稀少,而且成本更高。另一种选择是使用供应商进行安装,例如Cloudera for Hadoop或Spark for DataBricks,或使用AWS在云中运行EMR / Mapreduce流程。

阅读延展

1
3