基于分布式平臺(tái)Spark和YARN的數(shù)據(jù)挖掘算法的并行化研究
中山大學(xué) 梁彥
本文在Spark平臺(tái)上實(shí)現(xiàn)k-means算法并行化。針對(duì)k-means算法的不足,本文使用canopy算法對(duì)k-means算法進(jìn)行優(yōu)化提高算法效率和聚類結(jié)果的準(zhǔn)確性,并在Spark平臺(tái)上實(shí)現(xiàn)canopy-kmeans算法的并行化。對(duì)基于Spark平臺(tái)的k-means并行算法和canopy-kmeans并行算法在準(zhǔn)確性、加速比、擴(kuò)展性、與其他平臺(tái)性能進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,算法并行化后得到較好的聚類結(jié)果,在面對(duì)海量數(shù)據(jù)時(shí)有較好的加速比和擴(kuò)展性。與Hadoop平臺(tái)比較,基于Spark平臺(tái)算法并行化效率更高。而Spark平臺(tái)執(zhí)行需求資源不同的聚類任務(wù)時(shí),在資源管理平臺(tái)YARN調(diào)度任務(wù)相較于資源管理平臺(tái)Mesos有更高的執(zhí)行任務(wù)效率。研究表明,結(jié)合Spark+YARN平臺(tái)實(shí)現(xiàn)并行化是可行高效且具有現(xiàn)實(shí)意義的。
基于分布式平臺(tái)Spark和YARN的數(shù)據(jù)挖掘算法的并行化研究
