基于Hadoop的云平臺在海量Web數據分析中的應用研究
南京大學 陳富漢
為了提高傳統單一節點在海量Web數據分析和挖掘中存在時間和空間效率,通過分析Hadoop云計算開源平臺技術的國內外研究現狀和發展趨勢,基于Hadoop開源框架分布式文件系統(HDFS)和Map/Reduce編程模型,研究了海量Web日志性能指標和一種Web挖掘算法的Map/Reduce化過程,設計了海量Web數據分析系統架構,搭建了Hadoop開發平臺,實現了一個分布式的海量Web數據分析系統的開發。該系統集成了數據和應用,并通過Hadoop的應用程序編程接口(API)連接到Eclipse中,利用Maven管理和構建Hadoop項目,實現任務之間的共享操作。 通過在虛擬機搭建了4個節點的Hadoop集群環境系統測試平臺,測試分析了該系統和傳統系統的Shell腳本處理,統計分析了Hadoop平臺Web日志數據的采集和其關鍵績效指標(KPI),完成基于物品的協同過濾算法并行程序測試,測試結果表明該系統有效提高了海量Web數據分析和挖掘的時間和空間效率。
