基于Hadoop的云平臺在海量Web數(shù)據(jù)分析中的應(yīng)用研究
南京大學 陳富漢
為了提高傳統(tǒng)單一節(jié)點在海量Web數(shù)據(jù)分析和挖掘中存在時間和空間效率,通過分析Hadoop云計算開源平臺技術(shù)的國內(nèi)外研究現(xiàn)狀和發(fā)展趨勢,基于Hadoop開源框架分布式文件系統(tǒng)(HDFS)和Map/Reduce編程模型,研究了海量Web日志性能指標和一種Web挖掘算法的Map/Reduce化過程,設(shè)計了海量Web數(shù)據(jù)分析系統(tǒng)架構(gòu),搭建了Hadoop開發(fā)平臺,實現(xiàn)了一個分布式的海量Web數(shù)據(jù)分析系統(tǒng)的開發(fā)。該系統(tǒng)集成了數(shù)據(jù)和應(yīng)用,并通過Hadoop的應(yīng)用程序編程接口(API)連接到Eclipse中,利用Maven管理和構(gòu)建Hadoop項目,實現(xiàn)任務(wù)之間的共享操作。 通過在虛擬機搭建了4個節(jié)點的Hadoop集群環(huán)境系統(tǒng)測試平臺,測試分析了該系統(tǒng)和傳統(tǒng)系統(tǒng)的Shell腳本處理,統(tǒng)計分析了Hadoop平臺Web日志數(shù)據(jù)的采集和其關(guān)鍵績效指標(KPI),完成基于物品的協(xié)同過濾算法并行程序測試,測試結(jié)果表明該系統(tǒng)有效提高了海量Web數(shù)據(jù)分析和挖掘的時間和空間效率。
基于Hadoop的云平臺在海量Web數(shù)據(jù)分析中的應(yīng)用研究
