电影数据是用户兴趣建模研究常用的数据对象,电影数据资源量丰富,主题众多,受众较广,这些特征利用电影数据作为实验对象保证了结果具有一定的代表性,基于这个考虑,本节使用电影数据进行实验。本节数据部分包括两步,数据采集和数据处理。数据采集环节中,挑选合适的数据源,构建基本的资源库,统计资源的基础信息,抽取样本用户;数据处理环节中,将资源进行按照主题进行向量表示,将样本用户的数据划分为测试集与训练集,并对用户兴趣分别使用基于绝对频次和主题热度调权的方法进行表示。
(1)数据采集
豆瓣电影作为国内最大的社会化电影标注网站,沉淀了大量的用户日志数据,本节即以此作为数据来源进行数据采集。本节研究共采集了675351位豆瓣电影用户的全部观影记录,包括电影、电视剧、动画、短片等各类影视作品101486部[31],获取每一部影片的URL。由于本节仅以电影为研究对象,因此剔除所有非电影资源,如真人秀、颁奖礼、短片、电视剧等资源的数据。根据网页提供的资源描述元数据为标准进行筛选,最终得到75694部电影构建实验的原始数据集,并获取每一部电影的观影人数。用户数据方面,随机抽取200用户,由于需要以历史记录预测未来兴趣,过少的观影记录无法说明问题,因此剔除观影量小于10部影片的用户,以剩余170名用户作为样本用户进行实验。在进行最终的推荐实验时,为保证一定的推荐准确率,将无主题的电影和观看人次小于10次的影片进行剔除,形成最终的推荐候选集,共包括30049部影片。
(2)数据处理
数据处理包括三个方面的工作:统计不同主题下资源数量,基于向量空间模型进行资源特征表示,基于向量空间模型进行用户兴趣表示。
首先,统计各个主题上的数量。电影资源的主题可以从网页元数据中获取,即电影的“类型”。根据互联网电影资料库(IMDB)的划分[32],电影的类型可分为剧情、喜剧、爱情、动作、惊悚、动画、犯罪、恐怖、音乐、冒险、悬疑、家庭、奇幻、科幻、战争、历史、传记、运动、西部、黑色20种,这种类型实际上可以认为是电影所要表达的重要主题。每部电影可能有一个或多个主题,统计每个主题下资源的数量,统计结果如表3-1所示。(https://www.xing528.com)
表3-1 各主题下资源数量统计

续表

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
