面向HDFS的批量文件存儲性能的研究與優(yōu)化
南京師范大學 蘇義超
本文的主要工作及創(chuàng)新點如下: 1,在研讀HDFS系統(tǒng)源代碼的基礎上,介紹了HDFS典型操作流程和后臺管理工作,剖析了HDFS中元數(shù)據(jù)架構體系和通信機制,討論了HDFS系統(tǒng)在批量文件處理時面臨的一些問題和缺陷。 2,針對批量文件存儲時存在的問題,重構了批量文件存儲的機制和讀寫流程。在寫入批量用戶文件時,Client客戶端將批量文件合并成一個組文件,并且創(chuàng)建用戶文件、數(shù)據(jù)片段、組文件、數(shù)據(jù)塊之間的映射元數(shù)據(jù),然后將組文件和相關元數(shù)據(jù)都存儲到HDFS中;在讀取批量用戶文件時,Client客戶端首先獲取用戶文件的元數(shù)據(jù),其次按照存儲位置對數(shù)據(jù)片段進行分類,然后按類向DataNode發(fā)出數(shù)據(jù)讀取請求,獲得所有數(shù)據(jù)片斷,最后將數(shù)據(jù)片段組裝成用戶所求的文件。 3,在批量文件存儲優(yōu)化的基礎上,提出了將NameNode節(jié)點中容易分離的元數(shù)據(jù)遷移存儲到Redis服務器節(jié)點的方法,實現(xiàn)“元數(shù)據(jù)分布,訪問分布”,以此來進一步降低NameNode節(jié)點的內存消耗和訪問負載。 4,對于以上的優(yōu)化方案,在HDFS開源系統(tǒng)上做了編程實現(xiàn),并進行了實驗測試,實驗結果驗證了優(yōu)化策略的有效性。
