mongodb - spark叢集中每個節點都有一個獨立資料庫，可以實現分散式統計計算嗎？

Question

我將spark搭建在兩台機器上，其中一台即是master又是slave，另一台是slave，兩台機器上均裝有獨立的mongodb資料庫。我的主程式讓它們統計自身資料庫的內容，然後將結果匯總到一台伺服器上的資料庫。目前代碼是...

PHP中文网 · Answer

自問自答。原因可能是這樣：

val mongoRDD = sc.newAPIHadoopRDD(config, classOf[com.mongodb.hadoop.MongoInputFormat], classOf[Object], classOf[BSONObject])

這行程式碼表示這是由driver讀取資料庫，然後將符合條件的資料載入RDD，由於先前設定了是將127.0.0.1作為輸入，也就是從driver的mongodb上讀取資料。由於driver就在master上，所以讀取的資料也自然就是master上的資料了。