统计方法及应用研究：泛在知识环境下图书馆的知识发现技术

时间：2026-01-25 理论教育晴浪版权反馈

【摘要】：Session生成后，只要用户继续访问，服务器就会更新Session的最后访问时间，并维护该Session。学科之间每出现1次交叉计算1次出现频次，以学科之间交叉出现的频次作为学科交叉关系程度的反映。运算原理如下：设Articles=｛A1，A2，A3，…，An｝；设Session ID=｛S1，S2，S3，…设置内在关系权重为0.6，外在关系权重为0.4。那么，文章A1和A2符合要求，文章A3只含有B，舍弃。Key1=｛A，B，C｝Key2=｛A，D｝for each Key1：k1for each Key2：k2if kl＜＞k2计kl

（1）Session ID关系运用分析。

本章中学科之间的交叉关系是建立在Session ID关系的基础之上获得的。在Web中Session是指用户在浏览某个网站时，从进入网站到浏览器关闭所经过的这段时间，即用户浏览该网站所花费的时间。Session实际上是一个特定的时间概念。Session在用户第一次访问服务器时自动创建。Session生成后，只要用户继续访问，服务器就会更新Session的最后访问时间，并维护该Session。服务器会把长时间没有活动的Session从服务器内存中清除，此时Session便失效。服务器会分配Session ID给不同的用户，每个Session ID都是唯一的。本章将设Session ID为一个分析对象，在这个分析对象中，所有出现的文献被认为是存在关联关系的，它们之间的关联关系将作为学科之间建立交叉关系的基础。

首先，明确一个Session ID中包含的每篇文献的学科分类。文献学科分类确定好之后，Session ID中出现的文献之间的关系转换为学科之间的关系。

其次，再以Session ID为基础，交叉运算每一个Session ID中存在的两学科、三学科甚至多学科之间的相互交叉关系。假设一个Session ID中有若干篇文献，每篇文献都有学科归属。文献1学科分类为A，文献2学科分类为C，文献3学科分类既属于学科A又属于学科B，此时认为A和B学科之间存在交叉关系，A和C学科，B和C学科，A、B和C学科之间都存在学科交叉关系。在同一篇文献中出现的交叉关系定义为内在关系，同一个Session ID中出现的交叉关系定义为外在关系。学科之间每出现1次交叉计算1次出现频次，以学科之间交叉出现的频次作为学科交叉关系程度的反映。运算原理如下：

设Articles=｛A1，A2，A3，…，An｝；

设Session ID=｛S1，S2，S3，…，Sn｝。

①内在关系。

对于文章A1，设分类号为Category1=｛A，B，C｝，那么学科A、B、C之间的交叉次数为A、B、C的组合，即

A-B1

A-C1

B-C1

对于文章A2，设分类号为Category2=｛A，B｝，那么学科A、B之间的交叉次数为A、B的组合，即

A-B1

……

对于文章An，设分类号为Categoryn=｛A，B，D｝，那么学科A、B、D之间的交叉次数为A、B、D的组合，即

A-B1

A-D1

B-D1

合并同类项，计算所有的组合：

A-B3

A-C1

B-C1

A-D1

B-D1

②外在关系。

设A1，A2∈S1；

Category1=｛A，B，C｝；

Category2=｛A，D｝。

for each Category1：c1

for each Category2：c2

if cl＜＞c2

计cl与c2交叉1次，即

A-D1

B-A1

B-D1

C-A1

C-D1

……

设A3，A4∈Sn；

Category3=｛A，F｝；

Category4=｛B，I｝。

for each Category3：c3

for each Category4：c4

if c3＜＞c4

计c3与c4交叉1次，即

A-B1

A-I1

F-B1

F-I1

合并同类项：

A-B2

A-C1

A-D1

A-I1

B-D1

B-F1

C-D1

F-I1

③合并内在关系和外在关系。

设置内在关系权重为0.6，外在关系权重为0.4。

A-B 3×0.6=1.8

A-C 1×0.6=0.6

B-C 1×0.6=0.6

A-D 1×0.6=0.6

B-D 1×0.6=0.6

A-B 2×0.4=0.8

A-C 1×0.4=0.4

A-D 1×0.4=0.4

A-I 1×0.4=0.4

B-D 1×0.4=0.4

B-F 1×0.4=0.4

C-D 1×0.4=0.4

F-I 1×0.4=0.4

合并，得

A-B 2.6

A-C1

A-D1

A-I 0.4

B-C 0.6

B-D1

B-F 0.4

C-D 0.4

F-I 0.4

再次，学科交叉的研究的热点分析，也同样引入Session ID关系影响因素，扩大文献中出现的关键词关联关系，同一个Session ID的用户使用文献的学科关键词，关键词的共现频次不仅需要计算在同一篇文献中两两共现的次数，而且还要计算同一个Session ID中关键词的两两共现次数。同一篇文献中出现的关键词的共现关系定义为内在关系，同一Session ID出现的关键词的共现关系定义为外在关系。运算原理如下：

设Articles=｛A1，A2，A3，…，An｝；

设Session ID=｛S1，S2，S3，…，Sn｝。

假设寻找D-F（政治-经济）类学科交叉的关键词热点，那么同一Session ID中的所有文章分类号集合中必须含有D和F，例如，同一个Session ID中有文章A1、A2和A3。(https://www.xing528.com)

如果Category1=｛A，B，C｝、Category2=｛A，D｝、Category3=｛B｝、Category=｛A，B，C，D｝只包含D，没有F，不符合要求，舍弃该Session ID下的文章关键词。

如果Category1=｛A，B，F｝、Category2=｛A，D｝、Category3=｛B｝、Category=｛A，B，D，F｝同时包含D和F，符合要求，取含有D或F分类号的文章关键词作为数据源。

那么，文章A1和A2符合要求，文章A3只含有B，舍弃。

数据源选取完毕后，开始计算关键词之间的内在关系和外在关系。

①内在关系。

对于文章A1，设关键词为Key1=｛A，B，C｝，那么关键词A、B、C之间的交叉次数为A、B、C的组合，即

A-B1

A-C1

B-C1

对于文章A2，设分类号为Key2=｛A，B｝，那么关键词A、B之间的交叉次数为A、B的组合，即

A-B1

……

对于文章An，设分类号为Keyn=｛A，B，D｝，那么关键词A、B、D之间的交叉次数为A、B、D的组合，即

A-B1

A-D1

B-D1

合并同类项，计算所有的组合：

A-B3

A-C1

B-C1

A-D1

B-D1

②外在关系。

设A1，A2∈S1。

Key1=｛A，B，C｝

Key2=｛A，D｝

for each Key1：k1

for each Key2：k2

if kl＜＞k2

计kl与k2交叉1次，即

A-D1

B-A1

B-D1

C-A1

C-D1

……

设A3，A4∈Sn。

Key3=｛A，F｝

Key4=｛B，I｝

for each Key3：k3

for each Key4：k4

if k3＜＞k4

计k3与k4交叉1次，即

A-B1

A-I1

F-B1

F-I1

合并同类项：

A-B2

A-C1

A-D1

A-I1

B-D1

B-F1

C-D1

F-I1

③合并内在关系和外在关系。

设置内在关系和外在关系权重均为1。

A-B3

A-C1

B-C1

A-D1

B-D1

A-B2

A-C1

A-D1

A-I1

B-D1

B-F1

C-D1

F-I1

合并，得

A-B5

A-C2

A-D2

A-I1

B-C1

B-D1

B-F1

C-D1

F-I1

（2）因子分析。

因子分析是一种从变量群中提取共性因子的数据简化统计技术，最早是由英国心理学家斯皮尔曼提出的。因子分析通过研究众多变量间的内部依赖关系，探求观测数据中的基本结构，找出变量中隐藏的具有代表性的因子，将相同本质的变量归入一个因子中，减少变量的数目，同时检验变量间的假设关系，用假想的变量能够反映出原来众多变量的主要信息^[12]。换句话说，因子分析是寻找潜在的、起支配作用因子的方法。主成分分析法是其典型的分析方法。通过因子分析，将学科交叉出现的高频关键词提取出具有代表性的因子，以这些因子为类，分析得出学科交叉的热点区域。

（3）聚类分析。

聚类分析（Cluster Analysis）又称群分析，根据的是“物以类聚”的道理。聚类分析法是一种探索性分析方法，能够分析事物的内在特点和规律，并根据相似性原则对事物进行分组，是数据挖掘中常用的一种技术。它特别适用于没有先验知识的分类。如果没有这些事先的经验或一些标准，分类便会显得随意和主观，这时只要设定比较完善的分类变量，就可以通过聚类分析法得到较为科学合理的类别^[13]。对学科交叉的研究使用聚类分析是合适的。学科之间交叉后会产生怎样的知识分类，事先是无法得知的，通过聚类分析，可以分类得出，这样就可以与因子分析的结果进行比较，获得较为满意的学科交叉研究热点的分析结果^[14]。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

工作计划

年度工作

工作规划

教学计划

实施方案

工作方案

教学工作

发展计划

德育工作

管理工作

发展规划

工作总结

教育工作

体育教师

年度计划

后勤工作

安全教育

工作思路

教育计划

小学教师

幼儿教师

数学教师

食品安全

英语教学

统计方法及应用研究：泛在知识环境下图书馆的知识发现技术

相关推荐

统计方法及应用研究：泛在知识环境下图书馆的知识发现技术

相关文章：

相关推荐