基于網頁鏈接分類的PageRank并行算法
陳誠 戰蔭偉 李鷹
針對串行PageRank算法在處理海量網頁數據時效率低下的問題,提出一種基于網頁鏈接分類的PageRank并行算法。首先,將網頁按照網頁所屬網站分類,為來自不同站點的網頁設置不同的權重;其次,利用Hadoop并行計算框架,結合MapReduce分而治之的特點,并行計算網頁排名;最后,采用一種包含3層:數據層、預處理層、計算層的數據壓縮方法,對并行算法進行優化。實驗結果表明,與串行PageRank算法相比,所提算法在最好情況下結果準確率提高了12%,計算效率提高了33%。
