极品白丝女仆高潮喷水流白浆视频,91视频合集下载入口

工業(yè)大數(shù)據(jù)處理領(lǐng)域的“網(wǎng)紅”——Apache Spark

2018-12-18 09:42

生活離不開(kāi)水，同樣離不開(kāi)數(shù)據(jù)，我們被數(shù)據(jù)包圍，在數(shù)據(jù)中生活。當(dāng)數(shù)據(jù)越來(lái)越多時(shí)，就成了大數(shù)據(jù)。

在“中國(guó)制造2025”的技術(shù)路線圖中，工業(yè)大數(shù)據(jù)是作為重要突破點(diǎn)來(lái)規(guī)劃的，而在未來(lái)的十年，以數(shù)據(jù)為核心構(gòu)建的智能化體系會(huì)成為支撐智能制造和工業(yè)互聯(lián)網(wǎng)的核心動(dòng)力。而想要理解大數(shù)據(jù)，就需要理解大數(shù)據(jù)相關(guān)的查詢、處理、機(jī)器學(xué)習(xí)、圖計(jì)算和統(tǒng)計(jì)分析等。Apache Spark 作為新一代輕量級(jí)大數(shù)據(jù)快速處理平臺(tái)，集成了大數(shù)據(jù)相關(guān)的各種能力，是理解大數(shù)據(jù)的首選。

簡(jiǎn)單來(lái)講，Spark就是一個(gè)快速、通用的大規(guī)模數(shù)據(jù)處理引擎，各種不同的應(yīng)用，如實(shí)時(shí)流處理、機(jī)器學(xué)習(xí)、交互式查詢等，都可以通過(guò)Spark 建立在不同的存儲(chǔ)和運(yùn)行系統(tǒng)上。今天的格物匯，就帶大家來(lái)認(rèn)識(shí)一下如日中天、高速發(fā)展的大數(shù)據(jù)處理明星——Spark。

一、 Spark發(fā)展歷程

l 2009年，Spark誕生于伯克利大學(xué)AMPLab，最開(kāi)初屬于伯克利大學(xué)的研究性項(xiàng)目，最開(kāi)始Spark只是一個(gè)實(shí)驗(yàn)性的項(xiàng)目，代碼量非常少，僅有3900行代碼左右，屬于輕量級(jí)的框架。

l 2010年，伯克利大學(xué)正式開(kāi)源了Spark項(xiàng)目。

l 2013年6月，Spark成為了Apache基金會(huì)下的項(xiàng)目，進(jìn)入高速發(fā)展期,第三方開(kāi)發(fā)者貢獻(xiàn)了大量的代碼，活躍度非常高。

l 2014年2月，Spark以飛快的速度稱為了Apache的頂級(jí)項(xiàng)目。

l 2014年5月底Spark1.0.0發(fā)布。

l 2016年6月Spark2.0.0發(fā)布

l 2018年11月 Spark2.4.0 發(fā)布

Spark作為Hadoop生態(tài)中重要的一員，其發(fā)展速度堪稱恐怖，從誕生到成為Apache頂級(jí)項(xiàng)目不到五年時(shí)間，不過(guò)在如今數(shù)據(jù)量飛速增長(zhǎng)的環(huán)境與背景下，Spark作為高效的計(jì)算框架能收到如此大的關(guān)注也是有所依據(jù)的。

二、 Spark的特點(diǎn)

1. 速度快

Spark通過(guò)使用先進(jìn)的DAG調(diào)度器、查詢優(yōu)化器和物理執(zhí)行引擎，可以高性能地進(jìn)行批量及流式處理。使用邏輯回歸算法進(jìn)行迭代計(jì)算，Spark比Hadoop速度快100多倍。

2. 簡(jiǎn)單易用

Spark 目前支持多種編程語(yǔ)言，比如Java、Scala、Python、R。熟悉其中任一門(mén)語(yǔ)言的都可以直接上手編寫(xiě)Spark程序，非常方便。還支持超過(guò)80種高級(jí)算法，使用戶可以快速構(gòu)建不同應(yīng)用。并且Spark還支持交互式的Python和Scala的Shell，這意味著可以非常方便的在這些Shell中使用Spark集群來(lái)驗(yàn)證解決問(wèn)題的方法，而不是像以前一樣，需要打包、上傳集群、驗(yàn)證等。這對(duì)于原型開(kāi)發(fā)非常重要。

3. 通用性高

Spark 目前主要由四大組件，如下：

1) Spark SQL：SQL on Hadoop，能夠提供交互式查詢和報(bào)表查詢，通過(guò)JDBC等接口調(diào)用；

2) Spark Streaming:：流式計(jì)算引擎；

3) Spark MLlib：機(jī)器學(xué)習(xí)庫(kù)；

4) Spark GraphX：圖計(jì)算引擎。

擁有這四大組件，成功解決了大數(shù)據(jù)領(lǐng)域中，離線批處理、交互式查詢、實(shí)時(shí)流計(jì)算、機(jī)器學(xué)習(xí)與圖計(jì)算等最重要的任務(wù)和問(wèn)題，這些不同類型的處理都可以在同一應(yīng)用中無(wú)縫使用。Spark統(tǒng)一的解決方案非常具有吸引力，畢竟任何公司都想用統(tǒng)一的平臺(tái)處理問(wèn)題，減少開(kāi)發(fā)和維護(hù)的人力成本和部署平臺(tái)的物理成本。當(dāng)然還有，作為統(tǒng)一的解決方案，Spark并沒(méi)有以犧牲性能為代價(jià)。相反，在性能方面Spark具有巨大優(yōu)勢(shì)。

1 2 下一頁(yè)>