基于泛在知识环境的高效图书馆知识发现方法

时间：2026-01-25 理论教育小霍霍版权反馈

【摘要】：统计分析是指运用统计方法及与分析对象有关的知识，从定量与定性的结合上进行的研究活动[6]。关联规则的目的是挖掘事务之间的潜在关系。假设：items=｛item1，item2，…关联规则算法中运用最多的是著名的Apriori算法。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。使用递归方法生成所有频集[8]。基于一次迭代的Apriori算法能够满足需求，而且扫描数据库次数大大降低，提高了效率。

（1）统计分析。

统计分析是指运用统计方法及与分析对象有关的知识，从定量与定性的结合上进行的研究活动^[6]。它是从Web数据中提取有用信息最常用的一种技术，一般包括各种统计数据，如最频繁访问的N个页面、每页平均浏览时间和网址路径平均访问长度等，也可能涉及一些关于限制的错误分析，如统计非法IP、无效URL和未授权访问等^[7]。

词频分析法是统计分析中最常用的方法之一，本章按照文章分类号，根据文章题名出现的频次多少进行统计，找出每种文章类别中访问量排在前5位的文章题名。

（2）关联规则。

关联规则的目的是挖掘事务之间的潜在关系。假如一个事务中存在a，那么可能也存在b，即｛a｝→｛b｝。将此理论运用到用户兴趣模型中，可以这样理解：看了文章a的用户很可能也看了文章b，那么我们的任务就是挖掘出a和b之间到底有多强的联系。假设：

items=｛item1，item2，…，itemN｝，即items是所有项目的集合。

things=｛thing1，thing2，…，thingN｝，即things是所有事务的集合。(https://www.xing528.com)

每个事务是一些项目的集合，比如thing1=｛item1，item3，item4｝，即事务1中包含item1、item3、item4三个项目。

每个事务都是不同的，都有唯一的ID作为标识。

设x、y分别为某些项目的集合，假如x包含在一个事务中，那么可以推导出y在同一事务中也会出现，简写为xy，即由x可以关联到y，其中的x是条件，y是关联后的结果。

xy的规则中，存在支持度（support）和置信度（confidence）两个定义：support（xy）=（xUy）/things，即xy的支持度为同时包含x和y的事务数量与总事务量之比，表示出现的频次；confidence（xy）=（xUy）/x，即xy的置信度为同时包含x和y的事务数量与x的事务数量之比，表示规则的强度。

关联规则算法中运用最多的是著名的Apriori算法。Apriori算法首先找出所有的频集，这些频集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后使用第一步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。使用递归方法生成所有频集^[8]。

普通的Apriori算法在处理过程中需要进行多次迭代，而本章选用的是迭代一次的Apriori算法，共有五个步骤：存储会话事务、存储项目频数、存储项目共现次数、计算置信度、判断并显示。每个步骤只执行一次。基于一次迭代的Apriori算法能够满足需求，而且扫描数据库次数大大降低，提高了效率。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

工作计划

年度工作

工作规划

教学计划

实施方案

工作方案

教学工作

发展计划

德育工作

管理工作

发展规划

工作总结

教育工作

体育教师

年度计划

后勤工作

安全教育

工作思路

教育计划

小学教师

幼儿教师

数学教师

食品安全

英语教学

基于泛在知识环境的高效图书馆知识发现方法

相关推荐

基于泛在知识环境的高效图书馆知识发现方法

相关文章：

相关推荐