久久露脸国产精品WW,中文字幕黄色工厂欧美性爱,国产激情怍爱视频在线观看

工業(yè)大數(shù)據(jù)處理領(lǐng)域的“網(wǎng)紅”——Apache Spark

2018-12-18 09:42

4. 可融合性

Spark可以運(yùn)行在standalone、YARN、Mesos、Kubernetes及EC2多種調(diào)度平臺(tái)上。其中Standalone模式不依賴第三方的資源管理器和調(diào)度器，這樣降低了Spark的使用門檻，使得所有人可以非常容易地部署和使用Spark。

Spark可以處理所有Hadoop支持的數(shù)據(jù)，包括HDFS、Apach HBase、Apach Kudu、Apach Cassanda等。這對(duì)于已部署Hadoop集群的用戶特別重要，因?yàn)椴恍枰鋈魏螖?shù)據(jù)遷移就可以使用Spark強(qiáng)大的處理能力。

三、 Spark 相比MapReduce優(yōu)勢(shì)

Spark與MapReduce 同為計(jì)算框架，但作為后起之秀，Spark借鑒了MapReduce,并在其基礎(chǔ)上進(jìn)行了改進(jìn)，使得算法性能明顯優(yōu)于MapReduce，下面大致總結(jié)一下兩者差異：

1) Spark把運(yùn)算的中間數(shù)據(jù)存放在內(nèi)存，迭代計(jì)算效率更高；MapReduce的中間結(jié)果需要落地到磁盤，磁盤io操作多，影響性能。

2) Spark容錯(cuò)性高，它通過(guò)Lineage機(jī)制實(shí)現(xiàn)RDD算子的高效容錯(cuò)，某一部分丟失或者出錯(cuò)，可以通過(guò)整個(gè)數(shù)據(jù)集的計(jì)算流程的血緣關(guān)系來(lái)實(shí)現(xiàn)重建；MapReduce的話容錯(cuò)可能只能重新計(jì)算了，成本較高。

3) Spark更加通用，Spark提供了transformation和action這兩大類的多個(gè)功能算子，操作更為方便；MapReduce只提供了map和reduce兩種操作。

4) Spark框架和生態(tài)更為復(fù)雜，首先有RDD、血緣lineage、執(zhí)行時(shí)的有向無(wú)環(huán)圖DAG、stage劃分等等，很多時(shí)候spark作業(yè)都需要根據(jù)不同業(yè)務(wù)場(chǎng)景的需要進(jìn)行調(diào)優(yōu)已達(dá)到性能要求；MapReduce框架及其生態(tài)相對(duì)較為簡(jiǎn)單，對(duì)性能的要求也相對(duì)較弱，但是運(yùn)行較為穩(wěn)定，適合長(zhǎng)期后臺(tái)運(yùn)行。

四、 Spark與工業(yè)互聯(lián)網(wǎng)平臺(tái)

工業(yè)互聯(lián)網(wǎng)帶來(lái)了工業(yè)數(shù)據(jù)的快速發(fā)展，對(duì)于日益增加的海量數(shù)據(jù)，傳統(tǒng)單機(jī)因本身的軟硬件限制無(wú)法應(yīng)對(duì)海量數(shù)據(jù)的處理、分析以及深度挖掘，但作為分布式計(jì)算框架的Spark卻能輕松應(yīng)付這些場(chǎng)景。在工業(yè)互聯(lián)網(wǎng)平臺(tái)上，Spark 既能快速實(shí)現(xiàn)工業(yè)現(xiàn)場(chǎng)海量流數(shù)據(jù)的處理轉(zhuǎn)換，又能輕松應(yīng)對(duì)工業(yè)大數(shù)據(jù)平臺(tái)中海量數(shù)據(jù)的快速批處理分析，自身集成的機(jī)器學(xué)習(xí)框架能夠?qū)Ａ抗I(yè)數(shù)據(jù)進(jìn)行深度挖掘分析，從而幫助管理者進(jìn)行決策分析。

基于Spark框架自身的優(yōu)良設(shè)計(jì)理念以及社區(qū)的蓬勃發(fā)展?fàn)顟B(tài)，相信未來(lái)Spark會(huì)在工業(yè)互聯(lián)網(wǎng)平臺(tái)扮演越來(lái)越重要的角色。

本文作者：黃歡，格創(chuàng)東智大數(shù)據(jù)工程師（轉(zhuǎn)載請(qǐng)注明來(lái)源及作者）

<上一頁(yè) 1 2