基于網(wǎng)頁鏈接分類的PageRank并行算法
陳誠 戰(zhàn)蔭偉 李鷹
針對串行PageRank算法在處理海量網(wǎng)頁數(shù)據(jù)時效率低下的問題,提出一種基于網(wǎng)頁鏈接分類的PageRank并行算法。首先,將網(wǎng)頁按照網(wǎng)頁所屬網(wǎng)站分類,為來自不同站點的網(wǎng)頁設置不同的權重;其次,利用Hadoop并行計算框架,結合MapReduce分而治之的特點,并行計算網(wǎng)頁排名;最后,采用一種包含3層:數(shù)據(jù)層、預處理層、計算層的數(shù)據(jù)壓縮方法,對并行算法進行優(yōu)化。實驗結果表明,與串行PageRank算法相比,所提算法在最好情況下結果準確率提高了12%,計算效率提高了33%。
