首页 理论教育 基于用户画像的协同过滤推荐-信息推荐系统

基于用户画像的协同过滤推荐-信息推荐系统

时间:2023-10-31 理论教育 版权反馈
【摘要】:表8-3实验中自然属性信息的判别矩阵表8-4实验中用户属性信息的判别矩阵表8-5相似度算法权重设置基于用户画像的协同过滤推荐首先,获取“用户—项目”评分矩阵,建立传统的用户评分矩阵RSM×N,该矩阵反映了用户User对项目Item的评分情况,如公式所示:其中,用户ui对项目sj的评分使用rsui,sj表示,用户ui的平均评分使用表示。

基于用户画像的协同过滤推荐-信息推荐系统

(1)用户相似度计算

①自然属性相似度。

为便于研究,假定字母u和v分别表示两个豆瓣用户,用户的自然属性信息仅考虑2种用户特征属性即用户所在地址以及用户个人简介。用户u和v两者的背景信息分别表示为Background(u),Background(v)。具体地:Background(u)={Address(u),Introdution(u)},Background(v)={ Address (v),Introdution(v)}。其中Address代表用户地址,Introdution代表用户的个人简介。用户u和v两者的自然属性相似度表示为sim[Background(u),Background(v)],其可以根据用户(u,v)之间的各个属性相似度加权融合得到,计算公式如式(8-4):

式中,wi为地址与个人简介两者属性的权重值,且wa+wb=1。

a.地址相似度。

人们所处的地理位置不同,往往传统习俗、地域文化以及在该文化下的普遍性格等方面的区别都会对用户观影倾向造成影响,因此用户所处地理位置也是电影推荐中较为重要的属性,是计算用户相似度必须考虑的因素。本节采用国家—省份—地市三段数据格式来表示用户的地理位置属性,用转换次数t来标识两用户位置间的相似度。转换次数是指将某一用户的位置信息变为与另一用户相同时所需变换的次数,转换次数越多,则相度越低,反之则越高。例如,用户所在地址是中国—江苏—苏州,另一用户所在位置是中国—浙江—杭州,两者间转换次数t为2,其相似度我们便记为1/3。

b.个人简介相似度。

用户个人简介是用户在网站注册信息时所填写的对自己的一段简介介绍,其描述信息能够凸显个人的工作性质爱好兴趣等信息内容,在一定程度上能够反映用户的兴趣倾向,有较高的研究价值。通常编辑距离被用来衡量两个字符串之间的相似度,用来反映两个字符串的绝对差异,同时也可以被用来判定两个自然语言语句的相似度。利用编辑距离反映两个自然语言语句的相似程度时,相似度的数值区间是[0,1],其中相似度数值越大表示这两个自然语言语句相似程度越高。因此,本节采用编辑距离方法来计算用户的个人简介信息相似度。

令用户之间的编辑距离为Distance[Introduction(u),Introduction(v)],Length(x)表示x的长度,则用户(u,v)之间的个人简介信息相似度的计算公式如式(8-5):

②行为属性相似度。

这里的行为属性主要是指通过分析用户已观电影包含的电影标签信息来体现用户的行为偏好。针对用户对应的电影标签我们同样利用编辑距离来度量用户间的行为属性相似度,令用户之间的编辑距离为Distance[Tag(u),Tag(v)],Length(x)表示x的长度,则用户(u,v)之间的行为属性相似度的计算公式如式(8-6):

③兴趣属性相似度。

本节在通过BTM主题模型对用户的电影评论信息进行分析建模,获取了用户的主题分布后,采用皮尔森相关系数计算两两用户在主题概率分布间的距离,也就是用户之间兴趣属性的相似度。用户(u,v)的主题兴趣信息分别表示为Interest(u)、Interest(v),用户兴趣属性相似度计算见公式(8-7):

式(8-7)中,pi,u和pi,v分别表示用户u和用户v各自所对应主题zi的概率分布,分别表示用户u和用户v在主题zi下的概率分布的平均值。r取值在-1到1之间,越接近于1的表明两者相似性越大,反之相似性越弱。为便于主题兴趣相似度与其他相似度进行对比实验及融合得到用户综合相似度,这里将主题兴趣相似度进行绝对值处理,即sim[Interest(u),

(2)用户综合相似度

本节充分利用豆瓣用户信息,将用户的三种属性特征信息,即用户自然属性信息、用户兴趣属性信息和用户行为信息紧密融合在一起,以得到较优的用户相似度算法。对于用户(u,v)属性分别表示为,Profile(u)={Background(u),Tag(u),Interest(u)},Profile(v)={Background(v),Tag(v),Interest(v)}。

具体地,根据上述所计算得到的各个属性相似度,通过对用户自然属性相似度、用户行为属性相似度和用户兴趣属性相似度赋予合理的权重,来计算得到最终的用户综合相似度sim p(u,v),如公式(8-8):

(www.xing528.com)

其中,wa+wb+wc=1。由于能够表现用户特征的属性较多,但这些属性对相似度计算所具有的影响力大小却并不相同,若一味地将这些特征属性的重要程度视为同等重要,明显是不合理的,将无法保证用户相似度计算结果的准确性。因此我们采用层次分析法来计算用户(u,v)之间各个属性相似度的权重值。层次分析法的核心思路是利用属性取值方法的进行计算,得到该计算结果,再通过观察大量数据得到一个统计的结果,在将两个结果进行融合的基础上对所关注的各属性进行两两比较,最终得到属性判别矩阵,以确定各属性对决策产生的影响程度。定义中的判别矩阵用A来表示,它拥有着n个属性,其各元素中第i行第j列的元素为aij,表示元素i对元素j所具有的重要程度,取值范围为1~9,其中,数字1表示两属性具有相同的重要程度,元素数值越大代表着元素i相对元素j就越为重要。判别矩阵的具体形式如公式(8-9):

公式(8-9)中,,表示元素j对元素i的重要程度。

权重计算所采用的层次判别矩阵及最终各个属性相似度的权重值设置如表8-3至表8-5所示。

表8-3 实验中自然属性信息的判别矩阵

表8-4 实验中用户属性信息的判别矩阵

表8-5 相似度算法权重设置

(3)基于用户画像的协同过滤推荐

首先,获取“用户—项目”评分矩阵,建立传统的用户评分矩阵RSM×N,该矩阵反映了用户User对项目Item的评分情况,如公式(8-10)所示:

其中,用户ui对项目sj的评分使用rsui,sj表示,用户ui的平均评分使用表示。

其次,计算目标用户与其他用户的相似度sim u,v( )。我们在计算时采用Pearson相关系数度量公式,由此计算目标用户u和用户v的相似度。如公式(8-11)所示:

公式(8-11)中,S表示目标用户u及用户v共同评分过的项目,rsu,s表示用户u对项目s的评分值;则表示用户u的平均评分值。

最后,将用户综合相似度与评分相似度进行融合,总的用户相似度计算如公式(8-12)所示:

其中c是评分相似度所占的权重,其取值在0到1之间,需要多次实验来达到最优的实验结果。利用公式(8-12),可以得出与目标用户u偏好最接近的邻居集合,然后进行个性化协同过滤推荐,给出目标用户的Top-N电影推荐结果。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈