針對Hadoop異構集群節點性能的數據分配策略
林常航 郭文忠 陳煌寧
當前Hadoop的實現主要針對同構集群,假設任務處理的數據基本是本地的.然而,實際應用中集群多為異構.這暴露出現有的數據分配策略對數據局部性考慮的不足,其產生的不必要數據傳輸耗費了大量的帶寬資源和傳輸時間.通過結合Hadoop中數據放置與任務執行的關系,按不同節點對不同任務的執行能力進行數據分配.在考慮異構集群中節點固有性能的情況下,提出一種機架間基于任務特性和節點計算能力的數據分配策略.該分配策略提高了對數據局部性的關注,使每個節點都盡可能只訪問本地數據.通過實驗可知,該策略可以有效地縮短作業執行時間,提高時效性;同時提高數據局部性,減少網絡數據傳輸,避免擁塞;最后,該分配策略還具有較好的穩定性.
