首页 理论教育 电影用户画像建模方法

电影用户画像建模方法

时间:2023-10-31 理论教育 版权反馈
【摘要】:以豆瓣电影网站为例,我们通过分析豆瓣用户的关系网络,观察网站中的日常交互行为来对每一位用户信息进行详细描述。表8-2用户特征属性信息通过以上分析用户信息所得到的用户属性特征,可知用户画像的标签将由以下三个部分构成,即用户自然属性标签、用户兴趣属性标签以及用户行为属性标签。

电影用户画像建模方法

(1)用户属性分析

考虑到推荐系统所在的具体领域的不同,在构建用户画像之前,我们首先要尽可能多地搜集用户数据信息,这样构建出的用户画像模型才能准确反映现实生活中该用户的具体特征。但鉴于信息搜集成本以及隐私保护方面的限制,实际上构建的画像与用户是很难做到完全匹配的。因此,在信息收集过程中需要充分考虑实际的应用场景,能够构建满足条件需求的用户画像模型即可。

针对电影推荐这一实际场景,我们对电影领域下的用户属性进行分析,确定用户具有的属性信息特征,为之后的用户标签的构建做铺垫。以豆瓣电影网站为例,我们通过分析豆瓣用户的关系网络,观察网站中的日常交互行为来对每一位用户信息进行详细描述。我们搜集到的用户信息主要包括用户进行注册时所填写的自然属性信息;用户使用网站以及用户在电影平台上进行自由交流与分享所产生的社交信息;用户分享或发布的电影评论中所体现的主题兴趣信息;用户之前的观影记录所生产的行为信息等。

(2)构建用户标签

由于豆瓣网站上的用户与用户之间的社交关系较弱,因此我们将用户的属性信息归纳为以下三种:用户的自然属性信息包括性别、年龄、位置信息、工作信息、标签信息以及用户个人简介等;用户的兴趣属性信息包括用户分享或发布的电影评论与日记中所体现的用户隐性偏好以及倾向的电影类型;用户行为属性信息包括用户观影的信息记录、已看电影的所有标签等。

豆瓣用户特征属性可描述如表8-2所示。

表8-2 用户特征属性信息(www.xing528.com)

通过以上分析用户信息所得到的用户属性特征,可知用户画像的标签将由以下三个部分构成,即用户自然属性标签、用户兴趣属性标签以及用户行为属性标签。其中,用户自然属性信息和用户行为属性信息都可以通过显性信息收集方式较为容易获得,而用户兴趣属性则需要利用当前的文本挖掘算法来进行隐性收集,以得到用户的潜在兴趣倾向。因此,在进行用户属性提取以建立用户标签时,我们在此着重研究用户兴趣属性特征的提取过程。

本节我们利用BTM(Biterm Topic Model)主题模型[35]来分析用户的电影评论信息,以挖掘出用户感兴趣的电影主题。将用户的电影评论信息作为该模型的语料库集合,对其进行数据预处理后,将其分为训练集和测试集。通过对预处理过的训练集数据进行模型训练,可以推断出主题模型的关键参数,再利用测试集进行模型测试,从中得到测试用户的主题分布,将获得的“文档—主题”分布作为每个用户的主题分布,从而可以得知每个用户参与各个主题的概率分布(默认主题数为K),即获得了电影用户大致的主题兴趣倾向。

选择BTM主题模型来进行用户主题兴趣的提取,主要是因为BTM是针对短文本进行主题建模,与传统主题不同,其是将整个语料库中的共现词对作为文本特征,通过共现词对模式来丰富语料库的信息,可以避免短文本特征稀疏的问题,更好地揭示了主题内容。其中,共现词对(biterm)是一个短文本窗口中的无序共现词对,是由出现在同一个文本中无序的两个词语组成的。BTM模型中整个biterms语料库是上隐含着不同多样的主题,每个词对(biterm)都是从某个主题中独立抽取,且该词对中的每个词所对应的主题也都是相同的,即利用了词共现来保持词与词之间的相关性。与传统的主题模型相比,BTM的优势在于:①BTM明确地模拟词对共现模式,不是直接建模文档内容,对文档进行生成,而是直接由语料库中所有共现词对的概率分布生成,增强了主题学习效率;②BTM使用整个语料库中的聚合模式来学习主题,以解决文档级稀疏模式的问题。

BTM模型的建模过程是先生成词对语料库,然后再根据生成的语料库进行模型训练,推断模型参数,最终得到语料库上的主题分布和词分布。假设语料库中有M个特征词,一共包含个词对,其集合为B,即B=

,其中bi=(wi,1,wi,2),语料库上含有K个主题。θ表示语料库级别的主题分布,,且,主题k的分布可表示为θk=p(z=k),z代表主题。词分布用φ来表示,主题k下的词分布为φw,k,且有

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈