這是基于spark的電影推薦系統(tǒng)數(shù)據(jù)集下載,博主一年前寫過一個這樣的文章,電影推薦也是博主一年前就學(xué)習(xí)過的,溫故而知新,重新拿出來好好重新研究一番。
隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)當中挖取金子的工作越來越有吸引力。利用Spark在內(nèi)存迭代運算、機器學(xué)習(xí)領(lǐng)域強悍性能的優(yōu)勢,使用spark處理數(shù)據(jù)挖掘問題就顯得很有實際價值。這篇文章給大家分享一個spark MLlib 的推薦實戰(zhàn)例子。我將會分享怎樣用spark MLlib做一個電影評分的推薦系統(tǒng)。使用到的算法是user-based協(xié)同過濾。如果對Spark MLlib不太了解的,請閱讀我的上一篇博客。
1. 拷貝spark-assembly-1.4.1-hadoop2.6.0.jar到WebContent/WEB-INF/lib目錄;
(spark-assembly-1.4.1-hadoop2.6.0.jar文件由原生spark-assembly-1.4.1-hadoop2.6.0.jar刪除javax/servlet包獲得,由于太大,所以就沒有上傳了);
2. 拷貝原生spark-assembly-1.4.1-hadoop2.6.0.jar文件到HDFS(目錄和代碼中一致);
3. 拷貝WebContent/WEB-INF/lib目錄中的Spark141-als.jar到HDFS(目錄和代碼中保持一致);
4. 拷貝Hadoop集群(調(diào)用所使用的集群,每個人不一樣)配置文件yarn-site.xml到HDFS(目錄和代碼中保持一致);
5. 修改相關(guān)配置文件,由于hadoop相關(guān)配置、系統(tǒng)的一些屬性需要修改為實際的配置及屬性,所以針對這些需要進行修改(后面版本中會對此單獨一個配置文件)。