首页 理论教育 基于泛在知识环境的高效图书馆知识发现方法

基于泛在知识环境的高效图书馆知识发现方法

时间:2023-08-08 理论教育 版权反馈
【摘要】:统计分析是指运用统计方法及与分析对象有关的知识,从定量与定性的结合上进行的研究活动[6]。关联规则的目的是挖掘事务之间的潜在关系。假设:items={item1,item2,…关联规则算法中运用最多的是著名的Apriori算法。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。使用递归方法生成所有频集[8]。基于一次迭代的Apriori算法能够满足需求,而且扫描数据库次数大大降低,提高了效率。

基于泛在知识环境的高效图书馆知识发现方法

(1)统计分析

统计分析是指运用统计方法及与分析对象有关的知识,从定量与定性的结合上进行的研究活动[6]。它是从Web数据中提取有用信息最常用的一种技术,一般包括各种统计数据,如最频繁访问的N个页面、每页平均浏览时间和网址路径平均访问长度等,也可能涉及一些关于限制的错误分析,如统计非法IP、无效URL和未授权访问等[7]

词频分析法是统计分析中最常用的方法之一,本章按照文章分类号,根据文章题名出现的频次多少进行统计,找出每种文章类别中访问量排在前5位的文章题名。

(2)关联规则。

关联规则的目的是挖掘事务之间的潜在关系。假如一个事务中存在a,那么可能也存在b,即{a}→{b}。将此理论运用到用户兴趣模型中,可以这样理解:看了文章a的用户很可能也看了文章b,那么我们的任务就是挖掘出a和b之间到底有多强的联系。假设:

items={item1,item2,…,itemN},即items是所有项目的集合。

things={thing1,thing2,…,thingN},即things是所有事务的集合。(www.xing528.com)

每个事务是一些项目的集合,比如thing1={item1,item3,item4},即事务1中包含item1、item3、item4三个项目。

每个事务都是不同的,都有唯一的ID作为标识。

设x、y分别为某些项目的集合,假如x包含在一个事务中,那么可以推导出y在同一事务中也会出现,简写为xy,即由x可以关联到y,其中的x是条件,y是关联后的结果。

xy的规则中,存在支持度(support)和置信度(confidence)两个定义:support(xy)=(xUy)/things,即xy的支持度为同时包含x和y的事务数量与总事务量之比,表示出现的频次;confidence(xy)=(xUy)/x,即xy的置信度为同时包含x和y的事务数量与x的事务数量之比,表示规则的强度。

关联规则算法中运用最多的是著名的Apriori算法。Apriori算法首先找出所有的频集,这些频集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第一步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。使用递归方法生成所有频集[8]

普通的Apriori算法在处理过程中需要进行多次迭代,而本章选用的是迭代一次的Apriori算法,共有五个步骤:存储会话事务、存储项目频数、存储项目共现次数、计算置信度、判断并显示。每个步骤只执行一次。基于一次迭代的Apriori算法能够满足需求,而且扫描数据库次数大大降低,提高了效率

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈