现在的位置:主页 > 期刊导读 >

基于框架的电影推荐系统的实现(2)

来源:大数据 【在线投稿】 栏目:期刊导读 时间:2021-06-17

【作者】:网站采编
【关键词】:
【摘要】:图1 系统总体设计 3.2 系统功能设计 系统主要分为用户信息,电影推荐,电影信息管理三个主要功能模块,用户信息模块分为注册、登录、用户信息管理功

图1 系统总体设计

3.2 系统功能设计

系统主要分为用户信息,电影推荐,电影信息管理三个主要功能模块,用户信息模块分为注册、登录、用户信息管理功能,电影推荐模块主要有个性化电影推荐功能、用户评分功能,为解决ALS 算法存在的冷启动问题, 在此模块还增加热门电影推荐功能和好剧推荐功能, 使系统在向老用户推荐电影的同时, 也能为新用户提供电影推荐,此外,为进一步缓解冷启动问题,在用户注册模块增加年龄和对电影类别的偏好的信息填写, 增加用户特征属性,对于新用户进行辅助推荐。系统功能模块如图2:

图2 系统功能设计

3.3 Spark 大数据处理框架搭建

在实验室搭建Spark 生态环境, 安装配置Kafka、Zookeeper、flume、MLlib、Spark SQL、Spark Streaming 等生态组件,搭建Hadoop 平台,配置1个Master 节点和2 个work 节点,采用其HDFS 分布式存储历史评分数据, 对于实时产生的评分数据,将其存于MySQL 数据库中。安装IDEA 平台采用Scala 编程语言开发程序, 安装Node.js 进行前端开发。 搭建Spark 环境部分效果如图3。

3.4 系统实现

3.4.1 算法实现

Spark 生态组件MLlib 是实现部分机器学习算法的平台, 其中的spark.ml 包有提供实现交替最小二乘算法的函数,在ALS 算法中,主要的实现过程如下几个步骤:

(1)对数据集和Spark 生态环境进行初始化操作, 通过语句(import {ALS,ALSModel})来加载交替最小二乘ALS 算法模型。

(2)数据集转换,将样本评分数据分为3 部分,训练数据占70%,将最靠近最近时间段的数据作为测试数据占20%(通过用户评分表中的timestamp 排序获取),校验数据占10%。

(3)设置参数,如隐语义因子的个数、迭代次数,正则化参数等。

(4)在对ALS 模型进行训练的过程中,既进行显式反馈数据模型的训练, 同时也对隐式反馈数据进行模型训练,通过调整参数,多次迭代训练,产生最佳模型。

图3 Spark 环境搭建

(5)通过模型预测评分,计算与实际评分间的均方根误差RMSE,值越小越接近收敛。

(6)将推荐结果写入数据库,向用户推荐电影。

3.4.2 功能实现

(1)用户信息模块。 实现了用户注册、登录、用户信息管理三个子功能模块, 用户注册时尽可能简化用户操作,除了填写基本信息外,需要选择感兴趣的电影种类,以便对新用户进行电影推荐。 用户信息管理模块用于管理用户个人信息, 用户可以对自己的信息进行修改、完善,系统管理员也可查询和管理网站所有用户信息。 用户注册界面效果如图4。

(2)电影推荐模块。 这部分是网站的核心模块,实现了个性化电影推荐、热门电影推荐、好剧推荐、用户评分等四个子功能模块,用户选择对电影进行星级评分,并发表评论,后台管理员可以查看所有评分和评论并进行管理, 网站实现对每个用户提供个性化电影推荐服务, 并组合近一个月内点击率高及评论数多的热门电影, 和评分排名靠前的好剧进行推荐。 部分效果如图5、图6、图7所示。

图4 用户注册界面

(3)电影信息管理模块。 实现电影信息管理、电影分类管理子功能模块, 便于网站管理员对电影信息进行查询、增加、修改、删除等操作。

图5 猜你喜欢

图6 热门电影推荐

图7 电影评价

4 结语

大数据环境下, 推荐系统已进入到人们生活的各个方面, 为人们提供了更加丰富和便捷的体验, 应用前景广泛。 本文设计并实现了一个基于Spark 生态环境的电影推荐系统, 通过在Spark 框架中采用ALS 算法模型对数据进行反复的训练、优化调整,最终取得推荐的最佳模型,向用户提供个性化电影推荐服务。 面对新用户,推荐的挑战主要是冷启动问题,该系统以ALS 推荐算法为主,辅以热门电影和优质好剧推荐,同时将电影分类,以用户兴趣为出发点,结合电影点击率排名、评分排名向新用户提供电影推荐服务, 有效缓解冷启动问题。

[1]刘宏志.推荐系统[M].北京:机械工业出版社,2020:14-20.

[2]Apache unified analytics engine [EB/OL].[2020-07-11](2020-10-18).

[3]张力元.基于Spark 的混合模式电影推荐系统研究与实现[D].重庆大学,2018.

[4]孙远帅.基于大数据的推荐算法研究[D].厦门大学,2014.

文章来源:《大数据》 网址: http://www.dsjzz.cn/qikandaodu/2021/0617/2492.html

上一篇:浅谈中国电影产业与当代前瞻信息技术的共振格
下一篇:大数据下医院财务风险防范与内部控制