Hadoop系統(tǒng)架構(gòu)
美國阿帕奇(Apache)軟件基金會開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。
Hadoop由Apache軟件基金會于2005年秋正式引入。2006年3月,映射-化簡(MapReduce)編程模型和Nutch分布式文件系統(tǒng)(Nutch distributed file system,NDFS)分別被納入Hadoop項目中?;贖adoop的應(yīng)用與開發(fā)非常廣泛,有很多公司開始提供基于Hadoop的商業(yè)軟件、支持、服務(wù)以及培訓(xùn),如企業(yè)軟件公司、云計算基礎(chǔ)設(shè)施公司、數(shù)據(jù)安全公司等。
Hadoop由3部分組成:MapReduce負(fù)責(zé)計算,Hadoop分布式文件系統(tǒng)(Hadoop distributed file system,HDFS)負(fù)責(zé)存儲數(shù)據(jù),另一種資源協(xié)調(diào)者(yet another resource negotiator,YARN)為統(tǒng)一資源調(diào)度器,負(fù)責(zé)管理計算資源,如中央處理器和內(nèi)存等。
Hadoop的優(yōu)點(diǎn)主要有:①高可靠性。Hadoop按位存儲和處理數(shù)據(jù)的能力。②高擴(kuò)展性。Hadoop是在可用的計算機(jī)集群間分配數(shù)據(jù)并完成計算任務(wù)的,這些集群可以方便地擴(kuò)展到數(shù)以千計的節(jié)點(diǎn)中。③高效性。Hadoop能夠在節(jié)點(diǎn)之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點(diǎn)的動態(tài)平衡。④高容錯性。Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。⑤低成本。與一體機(jī)、商用數(shù)據(jù)倉庫相比,Hadoop是開源的,項目的軟件成本因此會大大降低。