基于分布式平臺Spark和YARN的數據挖掘算法的并行化研究
中山大學 梁彥
本文在Spark平臺上實現k-means算法并行化。針對k-means算法的不足,本文使用canopy算法對k-means算法進行優化提高算法效率和聚類結果的準確性,并在Spark平臺上實現canopy-kmeans算法的并行化。對基于Spark平臺的k-means并行算法和canopy-kmeans并行算法在準確性、加速比、擴展性、與其他平臺性能進行了比較。實驗結果表明,算法并行化后得到較好的聚類結果,在面對海量數據時有較好的加速比和擴展性。與Hadoop平臺比較,基于Spark平臺算法并行化效率更高。而Spark平臺執行需求資源不同的聚類任務時,在資源管理平臺YARN調度任務相較于資源管理平臺Mesos有更高的執行任務效率。研究表明,結合Spark+YARN平臺實現并行化是可行高效且具有現實意義的。
基于分布式平臺Spark和YARN的數據挖掘算法的并行化研究
