Hadoop是什麼？ - Hadoop教學

Hadoop是使用Java編寫，允許分佈在集群，使用簡單的編程模型的電腦大型數據集處理的Apache的開源框架。 Hadoop框架應用工程提供跨電腦集群的分佈式存儲和計算的環境。 Hadoop是專為從單一伺服器到上千臺機器擴展，每個機器都可以提供本地計算和存儲。

Hadoop的架構

在其核心，Hadoop主要有兩個層次，即：

MapReduce是一種並行編程模型，用於編寫普通硬體的設計，穀歌對大量數據的高效處理(多TB數據集)的分佈式應用在大型集群(數千個節點)以及可靠的容錯方式。 MapReduce程式可在Apache的開源框架Hadoop上運行。

Hadoop分佈式檔系統（HDFS）是基於穀歌檔系統（GFS），並提供了一個設計在普通硬體上運行的分佈式檔系統。它與現有的分佈式檔系統有許多相似之處。來自其他分佈式檔系統的差別是顯著。它高度容錯並設計成部署在低成本的硬體。提供了高吞吐量的應用數據訪問，並且適用於具有大數據集的應用程式。

除了上面提到的兩個核心組件，Hadoop的框架還包括以下兩個模組：

建立重配置，處理大規模處理伺服器這是相當昂貴的，但是作為替代，可以聯繫許多普通電腦採用單CPU在一起，作為一個單一功能的分佈式系統，實際上，集群機可以平行讀取數據集，並提供一個高得多的吞吐量。此外，這樣便宜不到一個高端伺服器價格。因此使用Hadoop跨越集群和低成本的機器上運行是一個不錯不選擇。

Hadoop運行整個電腦集群代碼。這個過程包括以下核心任務由 Hadoop 執行：