如何在MapReduce的各任務之間共享資料

時間 2023-02-25 06:55:07

1樓:匿名使用者

使用configuration

configuration類是框架提供的用於讀取系統提供的配置檔案內容,如等,也可以讀取自定義的配置檔案。

圖6-16這種資料處理方式適合傳遞簡單的鍵值對,不適合傳遞很多資料,也不適合傳遞資料檔案。

使用分布式快取。

distributedcache是框架提供的乙個分布式快取工具,它通過訪問hdfs,可以使得乙個job中的所有map或者reduce訪問同一份檔案。當在作業執行前,首先distributedcache會先把檔案複製到任務所在節點的磁碟上,然後節點上的任務就可以載入該檔案了。

圖6-18可以看到,使用distributedcache還是非常簡單的。如果不使用它,我們只能把共享的檔案手工放到所有的tasktracker的指定linux檔案中,當集群非常龐大時,工作量還是很大的,使用distributedcache後就不需要我們自己管了。

要注意的一點是,如果快取的檔案是jar,那麼在使用其包含的類時應該使用反射機制,因為jar所在的路徑不在框架的類路徑下,無法正常載入,如圖6-19所示。

圖6-19

mapreduceèîîñéêçë¶àéùvcore

map reduceóëhdfsôõã´½»»¥

2樓:匿名使用者

1、通過configuration在job中進行相應的設定,在map或者reduce進行讀取。

configuration conf=new configuration()

name,string value);

name,boolean value);

name,int value);

name,float value);

name,long value);

name);

name);

2、通過distributedcache進行檔案的共享。

在job中配置。

path);

在maper之間的setup方法中一般使用。

path ;

3樓:匿名使用者

在編寫mapreduce程式的時候,首先需要編寫map函式和reduce函式。

4樓:丹嫻若玉

摘要:mapreduce是hadoop的又一核心模組,從mapreduce是什麼,mapreduce能做什麼以及mapreduce的工作機制三方面認識mapreduce。

蠅蛆養殖前景如何,是不是像靳任任說的那樣

蠅蛆養殖現在在國內還主要是為其他養殖做餌料,目前國內尚未形成真正的蠅蛆市場。這主要是有以下幾個方面的原因引起的 第一 蠅蛆深加工技術尚不完善 蠅蛆的確是渾身上下都是可利用的。比如在蠅蛆體內的抗菌肽,是非常好的殺菌蛋白質亞結構。因為它不對人體造成任何的毒 同時具有高效的滅菌能力,只需要萬分之一的濃度即...

如何評價包月任讀的Kindle Unlimited

對 kindle unlimited 的評價如下 什麼樣的 看什麼樣的書,我不否認書庫中確實存在一些高質量作品,但是太少了,剩下的絕大多數沒有任何閱讀價值 撇開書單不談,如果在未來 kindle unlimited 開放了更多優質資源,對於長期保持閱讀習慣的人來說,確實是十分划算的 amazon k...

如何在中單獨設定每頁的頁尾,如何在word中單獨設定每頁的頁尾!

參考 怎麼在word中某一頁單獨設定頁尾 1 首先,我們開啟我們電腦上面任意的乙個word文件 2 之後我們點選插入,然後點選頁碼的下拉箭頭,彈出的介面,我們點選頁面頂端,然後選擇第乙個 3 然後我們將首頁不同給勾選上,之後點選關閉頁首和頁尾 4 之後我們點選插入,然後點選設定頁碼格式 5 彈出的介...