MapReduce原理-java教程-PHP中文網

首頁

Java

java教程

MapReduce原理

(*-*)浩

Jun 05, 2019 pm 02:15 PM

mapreduce

MapReduce是一種程式設計模型，用於大規模資料集（大於1TB）的平行運算。概念"Map（映射）"和"Reduce（歸約）"，是它們的主要思想，都是從函數式程式語言裡借來的，還有從向量程式語言裡借來的特性。

MapReduce原理

它大大方便了程式設計人員在不會分散式並行程式設計的情況下，將自己的程式運行在分散式系統上。目前的軟體實作是指定一個Map（映射）函數，用來把一組鍵值對映射成一組新的鍵值對，指定並發的Reduce（歸約）函數，用來確保所有映射的鍵值對中的每一個共享相同的鍵組。

工作原理(推薦學習：Java影片教學)

#MapReduce執行流程

MapReduce原理上圖是論文裡給的流程圖。一切都是從最上方的user program開始的，user program連結了MapReduce函式庫，實作了最基本的Map函數和Reduce函數。圖中執行的順序都用數字標記了。

1.MapReduce函式庫先把user program的輸入檔分成M份（M為使用者定義），每份通常有16MB到64MB，如圖左方所示分成了split0~4；然後使用fork將使用者進程拷貝到叢集內其它機器上。

2.user program的副本中有一個稱為master，其餘稱為worker，master是負責調度的，為空閒worker分配作業（Map作業或Reduce作業），worker的數量也是可以由用戶指定的。

3.被分配了Map作業的worker，開始讀取對應分片的輸入數據，Map作業數量是由M決定的，和split一一對應；Map作業從輸入數據中抽取出鍵值對，每一個鍵值對都會作為參數傳遞給map函數，map函數產生的中間鍵值對被緩存在記憶體中。

4.快取的中間鍵值對會被定期寫入本機磁碟，而且被分成R個區，R的大小是由使用者定義的，將來每個區會對應一個Reduce作業；這些中間鍵值對的位置會被通報給master，master負責將訊息轉發給Reduce worker。

5.master通知分配了Reduce作業的worker它負責的分區在什麼位置（肯定不止一個地方，每個Map作業產生的中間鍵值對都可能映射到所有R個不同分區），當Reduce worker把所有它負責的中間鍵值對都讀過來後，先對它們進行排序，使得相同鍵的鍵值對聚集在一起。因為不同的鍵可能會對應到同一個分區也就是同一個Reduce作業（誰讓分區少呢），所以排序是必須的。

6.reduce worker遍歷排序後的中間鍵值對，對於每個唯一的鍵，都將鍵與關聯的值傳遞給reduce函數，reduce函數產生的輸出會加到這個分區的輸出文件中。

7.當所有的Map和Reduce作業都完成了，master喚醒正版的user program，MapReduce函數呼叫回傳user program的程式碼。

所有執行完畢後，MapReduce輸出放在了R個分區的輸出檔中（分別對應一個Reduce作業）。使用者通常並不需要合併這R個文件，而是將其作為輸入交給另一個MapReduce程式處理。整個過程中，輸入資料是來自底層分散式檔案系統（GFS）的，中間資料是放在本機檔案系統的，最終輸出資料是寫入底層分散式檔案系統（GFS）的。而且我們要注意Map/Reduce作業和map/reduce函數的差異：Map作業處理一個輸入資料的分片，可能需要呼叫多次map函數來處理每個輸入鍵值對；Reduce作業處理一個分區的中間鍵值對，期間要對每個不同的鍵呼叫一次reduce函數，Reduce作業最終也會對應一個輸出檔。

更多Java相關技術文章，請造訪Java開發教學欄位進行學習！

以上是MapReduce原理的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

Java仍然是基於新功能的好語言嗎？May 12, 2025 am 12:12 AM

Javaremainsagoodlanguageduetoitscontinuousevolutionandrobustecosystem.1)Lambdaexpressionsenhancecodereadabilityandenablefunctionalprogramming.2)Streamsallowforefficientdataprocessing,particularlywithlargedatasets.3)ThemodularsystemintroducedinJava9im

是什麼使Java很棒？關鍵特徵和好處May 12, 2025 am 12:11 AM

Javaisgreatduetoitsplatformindependence,robustOOPsupport,extensivelibraries,andstrongcommunity.1)PlatformindependenceviaJVMallowscodetorunonvariousplatforms.2)OOPfeatureslikeencapsulation,inheritance,andpolymorphismenablemodularandscalablecode.3)Rich

前5個Java功能：示例和解釋May 12, 2025 am 12:09 AM

Java的五大特色是多態性、Lambda表達式、StreamsAPI、泛型和異常處理。 1.多態性讓不同類的對象可以作為共同基類的對象使用。 2.Lambda表達式使代碼更簡潔，特別適合處理集合和流。 3.StreamsAPI高效處理大數據集，支持聲明式操作。 4.泛型提供類型安全和重用性，編譯時捕獲類型錯誤。 5.異常處理幫助優雅處理錯誤，編寫可靠軟件。

Java的最高功能如何影響性能和可伸縮性？May 12, 2025 am 12:08 AM

java'stopfeatureSnificallyenhanceItsperformanCandScalability.1）對象 - 方向clincipleslike-polymormormormormormormormormormormormorableableflexibleandscalablecode.2）garbageCollectionAutectionAutoctionAutoctionAutoctionAutoctionAutoctionAutoMenateMememorymanateMmanateMmanateMmanagementButCancausElatemention.3）

JVM內部：深入Java虛擬機May 12, 2025 am 12:07 AM

JVM的核心組件包括ClassLoader、RuntimeDataArea和ExecutionEngine。 1)ClassLoader負責加載、鏈接和初始化類和接口。 2)RuntimeDataArea包含MethodArea、Heap、Stack、PCRegister和NativeMethodStacks。 3)ExecutionEngine由Interpreter、JITCompiler和GarbageCollector組成，負責bytecode的執行和優化。

什麼是使Java安全安全的功能？May 11, 2025 am 12:07 AM

Java'ssafetyandsecurityarebolsteredby:1)strongtyping,whichpreventstype-relatederrors;2)automaticmemorymanagementviagarbagecollection,reducingmemory-relatedvulnerabilities;3)sandboxing,isolatingcodefromthesystem;and4)robustexceptionhandling,ensuringgr

必不可少的Java功能：增強您的編碼技巧May 11, 2025 am 12:07 AM

Javaoffersseveralkeyfeaturesthatenhancecodingskills：1）對象 - 方向 - 方向上的allowslowsmodelowsmodelingreal-worldentities

JVM最完整的指南May 11, 2025 am 12:06 AM

thejvmisacrucialcomponentthatrunsjavacodebytranslatingitolachine特定結構，影響性能，安全性和便攜性。 1）theclassloaderloader，links andinitializesClasses.2）theexecutionEngineExecutionEngineExecutionEngineExecuteNexeCuteByteCuteByteCuteByTecuteByteCuteByteCuteBytecuteBytecuteByteCoDeinintolachineinstructionsions.3）Memo.3）Memo

See all articles