基于Hadoop的云平臺(tái)在海量Web數(shù)據(jù)分析中的應(yīng)用研究
南京大學(xué) 陳富漢
為了提高傳統(tǒng)單一節(jié)點(diǎn)在海量Web數(shù)據(jù)分析和挖掘中存在時(shí)間和空間效率,通過(guò)分析Hadoop云計(jì)算開源平臺(tái)技術(shù)的國(guó)內(nèi)外研究現(xiàn)狀和發(fā)展趨勢(shì),基于Hadoop開源框架分布式文件系統(tǒng)(HDFS)和Map/Reduce編程模型,研究了海量Web日志性能指標(biāo)和一種Web挖掘算法的Map/Reduce化過(guò)程,設(shè)計(jì)了海量Web數(shù)據(jù)分析系統(tǒng)架構(gòu),搭建了Hadoop開發(fā)