首页 理论教育 统计方法及应用研究:泛在知识环境下图书馆的知识发现技术

统计方法及应用研究:泛在知识环境下图书馆的知识发现技术

时间:2023-08-08 理论教育 版权反馈
【摘要】:Session生成后,只要用户继续访问,服务器就会更新Session的最后访问时间,并维护该Session。学科之间每出现1次交叉计算1次出现频次,以学科之间交叉出现的频次作为学科交叉关系程度的反映。运算原理如下:设Articles={A1,A2,A3,…,An};设Session ID={S1,S2,S3,…设置内在关系权重为0.6,外在关系权重为0.4。那么,文章A1和A2符合要求,文章A3只含有B,舍弃。Key1={A,B,C}Key2={A,D}for each Key1:k1for each Key2:k2if kl<>k2计kl

统计方法及应用研究:泛在知识环境下图书馆的知识发现技术

(1)Session ID关系运用分析。

本章中学科之间的交叉关系是建立在Session ID关系的基础之上获得的。在Web中Session是指用户在浏览某个网站时,从进入网站到浏览器关闭所经过的这段时间,即用户浏览该网站所花费的时间。Session实际上是一个特定的时间概念。Session在用户第一次访问服务器时自动创建。Session生成后,只要用户继续访问,服务器就会更新Session的最后访问时间,并维护该Session。服务器会把长时间没有活动的Session从服务器内存中清除,此时Session便失效。服务器会分配Session ID给不同的用户,每个Session ID都是唯一的。本章将设Session ID为一个分析对象,在这个分析对象中,所有出现的文献被认为是存在关联关系的,它们之间的关联关系将作为学科之间建立交叉关系的基础。

首先,明确一个Session ID中包含的每篇文献的学科分类。文献学科分类确定好之后,Session ID中出现的文献之间的关系转换为学科之间的关系。

其次,再以Session ID为基础,交叉运算每一个Session ID中存在的两学科、三学科甚至多学科之间的相互交叉关系。假设一个Session ID中有若干篇文献,每篇文献都有学科归属。文献1学科分类为A,文献2学科分类为C,文献3学科分类既属于学科A又属于学科B,此时认为A和B学科之间存在交叉关系,A和C学科,B和C学科,A、B和C学科之间都存在学科交叉关系。在同一篇文献中出现的交叉关系定义为内在关系,同一个Session ID中出现的交叉关系定义为外在关系。学科之间每出现1次交叉计算1次出现频次,以学科之间交叉出现的频次作为学科交叉关系程度的反映。运算原理如下:

设Articles={A1,A2,A3,…,An};

设Session ID={S1,S2,S3,…,Sn}。

①内在关系。

对于文章A1,设分类号为Category1={A,B,C},那么学科A、B、C之间的交叉次数为A、B、C的组合,即

A-B1

A-C1

B-C1

对于文章A2,设分类号为Category2={A,B},那么学科A、B之间的交叉次数为A、B的组合,即

A-B1

……

对于文章An,设分类号为Categoryn={A,B,D},那么学科A、B、D之间的交叉次数为A、B、D的组合,即

A-B1

A-D1

B-D1

合并同类项,计算所有的组合:

A-B3

A-C1

B-C1

A-D1

B-D1

②外在关系。

设A1,A2∈S1;

Category1={A,B,C};

Category2={A,D}。

for each Category1:c1

for each Category2:c2

if cl<>c2

计cl与c2交叉1次,即

A-D1

B-A1

B-D1

C-A1

C-D1

……

设A3,A4∈Sn;

Category3={A,F};

Category4={B,I}。

for each Category3:c3

for each Category4:c4

if c3<>c4

计c3与c4交叉1次,即

A-B1

A-I1

F-B1

F-I1

合并同类项:

A-B2

A-C1

A-D1

A-I1

B-D1

B-F1

C-D1

F-I1

③合并内在关系和外在关系。

设置内在关系权重为0.6,外在关系权重为0.4。

A-B 3×0.6=1.8

A-C 1×0.6=0.6

B-C 1×0.6=0.6

A-D 1×0.6=0.6

B-D 1×0.6=0.6

A-B 2×0.4=0.8

A-C 1×0.4=0.4

A-D 1×0.4=0.4

A-I 1×0.4=0.4

B-D 1×0.4=0.4

B-F 1×0.4=0.4

C-D 1×0.4=0.4

F-I 1×0.4=0.4

合并,得

A-B 2.6

A-C1

A-D1

A-I 0.4

B-C 0.6

B-D1

B-F 0.4

C-D 0.4

F-I 0.4

再次,学科交叉的研究的热点分析,也同样引入Session ID关系影响因素,扩大文献中出现的关键词关联关系,同一个Session ID的用户使用文献的学科关键词,关键词的共现频次不仅需要计算在同一篇文献中两两共现的次数,而且还要计算同一个Session ID中关键词的两两共现次数。同一篇文献中出现的关键词的共现关系定义为内在关系,同一Session ID出现的关键词的共现关系定义为外在关系。运算原理如下:

设Articles={A1,A2,A3,…,An};

设Session ID={S1,S2,S3,…,Sn}。

假设寻找D-F(政治-经济)类学科交叉的关键词热点,那么同一Session ID中的所有文章分类号集合中必须含有D和F,例如,同一个Session ID中有文章A1、A2和A3。(www.xing528.com)

如果Category1={A,B,C}、Category2={A,D}、Category3={B}、Category={A,B,C,D}只包含D,没有F,不符合要求,舍弃该Session ID下的文章关键词。

如果Category1={A,B,F}、Category2={A,D}、Category3={B}、Category={A,B,D,F}同时包含D和F,符合要求,取含有D或F分类号的文章关键词作为数据源。

那么,文章A1和A2符合要求,文章A3只含有B,舍弃。

数据源选取完毕后,开始计算关键词之间的内在关系和外在关系。

①内在关系。

对于文章A1,设关键词为Key1={A,B,C},那么关键词A、B、C之间的交叉次数为A、B、C的组合,即

A-B1

A-C1

B-C1

对于文章A2,设分类号为Key2={A,B},那么关键词A、B之间的交叉次数为A、B的组合,即

A-B1

……

对于文章An,设分类号为Keyn={A,B,D},那么关键词A、B、D之间的交叉次数为A、B、D的组合,即

A-B1

A-D1

B-D1

合并同类项,计算所有的组合:

A-B3

A-C1

B-C1

A-D1

B-D1

②外在关系。

设A1,A2∈S1。

Key1={A,B,C}

Key2={A,D}

for each Key1:k1

for each Key2:k2

if kl<>k2

计kl与k2交叉1次,即

A-D1

B-A1

B-D1

C-A1

C-D1

……

设A3,A4∈Sn。

Key3={A,F}

Key4={B,I}

for each Key3:k3

for each Key4:k4

if k3<>k4

计k3与k4交叉1次,即

A-B1

A-I1

F-B1

F-I1

合并同类项:

A-B2

A-C1

A-D1

A-I1

B-D1

B-F1

C-D1

F-I1

③合并内在关系和外在关系。

设置内在关系和外在关系权重均为1。

A-B3

A-C1

B-C1

A-D1

B-D1

A-B2

A-C1

A-D1

A-I1

B-D1

B-F1

C-D1

F-I1

合并,得

A-B5

A-C2

A-D2

A-I1

B-C1

B-D1

B-F1

C-D1

F-I1

(2)因子分析

因子分析是一种从变量群中提取共性因子的数据简化统计技术,最早是由英国心理学家斯皮尔曼提出的。因子分析通过研究众多变量间的内部依赖关系,探求观测数据中的基本结构,找出变量中隐藏的具有代表性的因子,将相同本质的变量归入一个因子中,减少变量的数目,同时检验变量间的假设关系,用假想的变量能够反映出原来众多变量的主要信息[12]。换句话说,因子分析是寻找潜在的、起支配作用因子的方法。主成分分析法是其典型的分析方法。通过因子分析,将学科交叉出现的高频关键词提取出具有代表性的因子,以这些因子为类,分析得出学科交叉的热点区域。

(3)聚类分析

聚类分析(Cluster Analysis)又称群分析,根据的是“物以类聚”的道理。聚类分析法是一种探索性分析方法,能够分析事物的内在特点和规律,并根据相似性原则对事物进行分组,是数据挖掘中常用的一种技术。它特别适用于没有先验知识的分类。如果没有这些事先的经验或一些标准,分类便会显得随意和主观,这时只要设定比较完善的分类变量,就可以通过聚类分析法得到较为科学合理的类别[13]。对学科交叉的研究使用聚类分析是合适的。学科之间交叉后会产生怎样的知识分类,事先是无法得知的,通过聚类分析,可以分类得出,这样就可以与因子分析的结果进行比较,获得较为满意的学科交叉研究热点的分析结果[14]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈