(1)Session ID关系运用分析。
本章中学科之间的交叉关系是建立在Session ID关系的基础之上获得的。在Web中Session是指用户在浏览某个网站时,从进入网站到浏览器关闭所经过的这段时间,即用户浏览该网站所花费的时间。Session实际上是一个特定的时间概念。Session在用户第一次访问服务器时自动创建。Session生成后,只要用户继续访问,服务器就会更新Session的最后访问时间,并维护该Session。服务器会把长时间没有活动的Session从服务器内存中清除,此时Session便失效。服务器会分配Session ID给不同的用户,每个Session ID都是唯一的。本章将设Session ID为一个分析对象,在这个分析对象中,所有出现的文献被认为是存在关联关系的,它们之间的关联关系将作为学科之间建立交叉关系的基础。
首先,明确一个Session ID中包含的每篇文献的学科分类。文献学科分类确定好之后,Session ID中出现的文献之间的关系转换为学科之间的关系。
其次,再以Session ID为基础,交叉运算每一个Session ID中存在的两学科、三学科甚至多学科之间的相互交叉关系。假设一个Session ID中有若干篇文献,每篇文献都有学科归属。文献1学科分类为A,文献2学科分类为C,文献3学科分类既属于学科A又属于学科B,此时认为A和B学科之间存在交叉关系,A和C学科,B和C学科,A、B和C学科之间都存在学科交叉关系。在同一篇文献中出现的交叉关系定义为内在关系,同一个Session ID中出现的交叉关系定义为外在关系。学科之间每出现1次交叉计算1次出现频次,以学科之间交叉出现的频次作为学科交叉关系程度的反映。运算原理如下:
设Articles={A1,A2,A3,…,An};
设Session ID={S1,S2,S3,…,Sn}。
①内在关系。
对于文章A1,设分类号为Category1={A,B,C},那么学科A、B、C之间的交叉次数为A、B、C的组合,即
A-B1
A-C1
B-C1
对于文章A2,设分类号为Category2={A,B},那么学科A、B之间的交叉次数为A、B的组合,即
A-B1
……
对于文章An,设分类号为Categoryn={A,B,D},那么学科A、B、D之间的交叉次数为A、B、D的组合,即
A-B1
A-D1
B-D1
合并同类项,计算所有的组合:
A-B3
A-C1
B-C1
A-D1
B-D1
②外在关系。
设A1,A2∈S1;
Category1={A,B,C};
Category2={A,D}。
for each Category1:c1
for each Category2:c2
if cl<>c2
计cl与c2交叉1次,即
A-D1
B-A1
B-D1
C-A1
C-D1
……
设A3,A4∈Sn;
Category3={A,F};
Category4={B,I}。
for each Category3:c3
for each Category4:c4
if c3<>c4
计c3与c4交叉1次,即
A-B1
A-I1
F-B1
F-I1
合并同类项:
A-B2
A-C1
A-D1
A-I1
B-D1
B-F1
C-D1
F-I1
③合并内在关系和外在关系。
设置内在关系权重为0.6,外在关系权重为0.4。
A-B 3×0.6=1.8
A-C 1×0.6=0.6
B-C 1×0.6=0.6
A-D 1×0.6=0.6
B-D 1×0.6=0.6
A-B 2×0.4=0.8
A-C 1×0.4=0.4
A-D 1×0.4=0.4
A-I 1×0.4=0.4
B-D 1×0.4=0.4
B-F 1×0.4=0.4
C-D 1×0.4=0.4
F-I 1×0.4=0.4
合并,得
A-B 2.6
A-C1
A-D1
A-I 0.4
B-C 0.6
B-D1
B-F 0.4
C-D 0.4
F-I 0.4
再次,学科交叉的研究的热点分析,也同样引入Session ID关系影响因素,扩大文献中出现的关键词关联关系,同一个Session ID的用户使用文献的学科关键词,关键词的共现频次不仅需要计算在同一篇文献中两两共现的次数,而且还要计算同一个Session ID中关键词的两两共现次数。同一篇文献中出现的关键词的共现关系定义为内在关系,同一Session ID出现的关键词的共现关系定义为外在关系。运算原理如下:
设Articles={A1,A2,A3,…,An};
设Session ID={S1,S2,S3,…,Sn}。
假设寻找D-F(政治-经济)类学科交叉的关键词热点,那么同一Session ID中的所有文章分类号集合中必须含有D和F,例如,同一个Session ID中有文章A1、A2和A3。(www.xing528.com)
如果Category1={A,B,C}、Category2={A,D}、Category3={B}、Category={A,B,C,D}只包含D,没有F,不符合要求,舍弃该Session ID下的文章关键词。
如果Category1={A,B,F}、Category2={A,D}、Category3={B}、Category={A,B,D,F}同时包含D和F,符合要求,取含有D或F分类号的文章关键词作为数据源。
那么,文章A1和A2符合要求,文章A3只含有B,舍弃。
数据源选取完毕后,开始计算关键词之间的内在关系和外在关系。
①内在关系。
对于文章A1,设关键词为Key1={A,B,C},那么关键词A、B、C之间的交叉次数为A、B、C的组合,即
A-B1
A-C1
B-C1
对于文章A2,设分类号为Key2={A,B},那么关键词A、B之间的交叉次数为A、B的组合,即
A-B1
……
对于文章An,设分类号为Keyn={A,B,D},那么关键词A、B、D之间的交叉次数为A、B、D的组合,即
A-B1
A-D1
B-D1
合并同类项,计算所有的组合:
A-B3
A-C1
B-C1
A-D1
B-D1
②外在关系。
设A1,A2∈S1。
Key1={A,B,C}
Key2={A,D}
for each Key1:k1
for each Key2:k2
if kl<>k2
计kl与k2交叉1次,即
A-D1
B-A1
B-D1
C-A1
C-D1
……
设A3,A4∈Sn。
Key3={A,F}
Key4={B,I}
for each Key3:k3
for each Key4:k4
if k3<>k4
计k3与k4交叉1次,即
A-B1
A-I1
F-B1
F-I1
合并同类项:
A-B2
A-C1
A-D1
A-I1
B-D1
B-F1
C-D1
F-I1
③合并内在关系和外在关系。
设置内在关系和外在关系权重均为1。
A-B3
A-C1
B-C1
A-D1
B-D1
A-B2
A-C1
A-D1
A-I1
B-D1
B-F1
C-D1
F-I1
合并,得
A-B5
A-C2
A-D2
A-I1
B-C1
B-D1
B-F1
C-D1
F-I1
(2)因子分析。
因子分析是一种从变量群中提取共性因子的数据简化统计技术,最早是由英国心理学家斯皮尔曼提出的。因子分析通过研究众多变量间的内部依赖关系,探求观测数据中的基本结构,找出变量中隐藏的具有代表性的因子,将相同本质的变量归入一个因子中,减少变量的数目,同时检验变量间的假设关系,用假想的变量能够反映出原来众多变量的主要信息[12]。换句话说,因子分析是寻找潜在的、起支配作用因子的方法。主成分分析法是其典型的分析方法。通过因子分析,将学科交叉出现的高频关键词提取出具有代表性的因子,以这些因子为类,分析得出学科交叉的热点区域。
(3)聚类分析。
聚类分析(Cluster Analysis)又称群分析,根据的是“物以类聚”的道理。聚类分析法是一种探索性分析方法,能够分析事物的内在特点和规律,并根据相似性原则对事物进行分组,是数据挖掘中常用的一种技术。它特别适用于没有先验知识的分类。如果没有这些事先的经验或一些标准,分类便会显得随意和主观,这时只要设定比较完善的分类变量,就可以通过聚类分析法得到较为科学合理的类别[13]。对学科交叉的研究使用聚类分析是合适的。学科之间交叉后会产生怎样的知识分类,事先是无法得知的,通过聚类分析,可以分类得出,这样就可以与因子分析的结果进行比较,获得较为满意的学科交叉研究热点的分析结果[14]。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。