基于内容的推荐依赖于这样的假设,即用户的兴趣被他们之前的消费产品所反映。在基于内容推荐方法中,产品s对用户c产生的效用u(c,s)基于用户c对产品si的效用评价估计得到,其中si∈S,S是与产品s最为相似的产品集。基于内容的推荐方法起源于信息检索和信息过滤研究。由于在信息检索和过滤方面取得的重要进展,以及一些基于文本应用的重要性,很多当前基于内容的系统聚焦于包含文本信息的产品推荐,例如文档、网站、新闻消息等。对传统信息检索技术的改进来自于用户概貌的使用,它包含了用户的口味、喜好和需要,这些信息可以显式或隐式抽取,如用户过去的交易行为,问卷调查等。用Conent(s)表示一个产品的概貌,它通常是通过从产品s中抽取一系列的特征得到,并被用于决定该产品被推荐和适合性。因为之前提到,大多数基于内容的推荐系统被设计用于基于文本产品的推荐,在这些推荐系统中,内容通常用一系列的关键词描述。在文档dk中关键词的重要性由其权重wij决定,权重的计算方法各有不同。
一个众所周知的测量方法是TF-IDF。该方法假设N是总的文档数,ni表示关键词ki出现在N个文档中的ni个包含关键词ki,fi,j表示关键词在文档dj中出现的次数,关键词ki在文档dj中的词频TFi,j定义为:
其中maxzfz,j表示出现在文档dj中的所有关键词kz中出现频率最高的词频。然而,那些出现在很多文档中的关键词对于差别相关或不相关文档是没有帮助的。因此,反向文档频率IDGi经常被用于与简单的词频相结合。其计算公式和关键词的权重计算公式为:
根据以上假设,其文档内容可表示为Content(s)=(w1,j,…wk,J)。
假设UserProfile(c)表示用户c的概貌,其包含该用户的口味和兴趣。这些概貌是分析用户之前消费或评价的产品,通过关键词分析技术构建。因此,UserProfile(c)可以定义为一个权重向量(wc,1,…wc,k)其中wc,1表示关键词ki对用户c的重要程度,可以通过多种方法计算得到,例如Rocchio算法,Bayesian分类器等。
在基于内容的系统中,效用函数u(C,s)通常被定义为:(www.xing528.com)
u(c,s)=score(User Profile(c),Content(s))
使用上面所提的基于信息检索的Web页面、文档或新闻推荐方法,UserProfile(c)和Content(s)表示为TD-IDF向量wc和ws。因此,在信息检索文献中,效用函数u(c,s)通过一些启发式得分来表示,如余弦向量夹角公式:
其中K是系统中关键词总数。
除了传统的启发式方法外,还有Bayesian分类器和各种机器学习技术被使用,如聚类、分类、神经网络等。这些技术与基于信息检索方法的不同之处在于它们是基于模型的方法,模型通过从基础数据中通过统计学习和机器学习技术训练获得。例如使用朴素贝叶斯分析器分类未评分网页:定义页面为Pj,用户向量用(k1,j,…kn,j)表示,估计页面pj属于类Ci的概率为P(Ci|k1,j,…kn,j)。假设关键字是相互独立的,则其概率计算式可转变为P(Ci)∏xP(kx,j, |Ci),实验结果证明朴素贝叶斯分类器能产生高效的分类准确度。但基于内容的推荐存在着分析内容有限、过拟合及新用户问题,并且其前提假设有一些缺陷,因为用户的兴趣会随时间而改变,前期消费的产品可能并不能代表用户当前的兴趣。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。