首页 理论教育 不同对象的聚合重点和深度挖掘

不同对象的聚合重点和深度挖掘

时间:2023-07-08 理论教育 版权反馈
【摘要】:在实施科学知识多元计量聚合过程中,聚合的深度特性体现为在计量的基础上实现基于语义的聚合,每个阶段的研究侧重点和挖掘深度不同。从计量的角度来看,作者聚合方式主要包括对作者之间合作、引用、共被引和耦合关系形成网络的分析,且这些分析目前已经形成了相对固定的研究团体和技术流程,但仍存在许多明显的问题。

不同对象的聚合重点和深度挖掘

在实施科学知识多元计量聚合过程中,聚合的深度特性体现为在计量的基础上实现基于语义的聚合,每个阶段的研究侧重点和挖掘深度不同。可以从词、引文和作者三类最典型的特征项角度进一步阐述彼此之间的差别。在所有途径的聚合中,词是表达语义的基础,词角度的聚合是最细粒度的聚合;引文是资源之间显性直接关联的最典型形式,其所构成的网络也是资源关联网络中有向-二值网络的最典型代表;作者是数字文献资源的创作主体,也是科学文献资源最重要的特征项实体之一,作者之间具有网络类型上的最丰富性,从这三种对象的角度进行分析,无论在理论上还是实践上都是最基础也最具通用特征的。

词是知识和信息形式化表达的主要方法,传统的信息组织、信息检索等最重要的一个研究着眼点就是对于词的研究。信息组织的主题法是从内容角度标引和检索资源的重要途径,通过对词汇的归纳、总结、筛选和控制,可以形成主题词;另一种重要的从内容特征的相互关系角度组织揭示资源的分类法也是在对资源知识信息内容的判断基础上形成的,因此可以认为从词角度的分析和聚合是基础聚合方式,也是进行知识和概念层次分析的主要途径,它是最细粒度的一种聚合。从计量的角度来看,聚合词的主要技术手段为共词分析,在共词网络的基础上结合多元统计中的降维方法,进一步实现了主题的聚合和呈现。但是从计量角度进行词聚合的相对特殊性在于,词间关系类型相对单一,仅考虑共同出现的情况,其他关联类型如引用、共被引和耦合关系在词关联中的适用性很弱,很少有研究会进行类似于词共引分析、词引用分析等分析,基于词的聚合更依赖于语义化的手段和方法。因此基于词的资源聚合研究侧重点在从传统的共词分析方法进一步向语义化的拓展上,这也是实现对以其他途径实施聚合的结果从语义层面进行深入分析的基础。

科学文献资源之间基于引文网络的聚合是直接依据资源间知识关联特性实施聚合的一种方式,在引文网络中,传统的分析大多数情况下是依据绝对引文次数和影响因子等对资源的重要性做出判断,进一步对结构进行挖掘时,依据的主要分析方式是层次聚类方法。由于引文网络是一种典型的有向-二值网络,和现实社会中的许多网络特性相近,在网络理论被引入信息计量学和科学计量学之前,累计的被引频次被广泛用于科学评价当中,许多基于引用的指标被开发出来,例如期刊影响因子、H指数等。累计的引用次数和基于被引的指标假设所有的引用关系都具有相同的重要性程度,并没有考虑施引对象(如施引论文、施引期刊和施引作者等)的重要性,这种等同式的处理方法被许多学者所质疑,并且建议利用不同的方法区分出施引对象的重要性来赋予引用不同的权重。相对于传统的利用被引次数的方式,引文网络的分析需要对表现为单独引用的知识传承问题进行更多的考虑。因此对引文网络进行结构性分析,从中直接提取出依据引用关联形成的资源集合,是利用引文网络实施数字文献资源聚合的主要研究侧重点,尤其是合适的评价资源重要性的方法和资源集合最终的获取方式更体现了深度性。(www.xing528.com)

基于作者的资源聚合侧重于分析不同类型的关联的语义相关性以及作者集合所包含的语义信息。作者是资源介于外部特征和内部特征之间的一类资源实体特征,其外部性在于用户或者信息组织者无法单纯从作者的角度对资源的内容特征进行判断,其内部性特征在于,作者资源的创作主体、资源所包含的知识信息内容是资源作者对世界认识和研究结果的表达。然而,利用作者进行资源聚合需要资源的组织者和用户对知识信息内容和作者之间的关联有一定的了解,因此,基于作者角度的聚合并非那么直观;但是从作者角度实施聚合却非常重要,作者是资源社会属性的基础,资源所有的社会属性例如机构归属、地域归属等都是作者社会属性的体现。此外,资源的其他属性例如期刊归属等,相较于从作者角度来看略显简单,从形成的实体关联网络来看,只是其中的节点不同而已,故而从作者角度的资源聚合可以从方法和流程角度解决其他实体聚合的主要问题。从计量的角度来看,作者聚合方式主要包括对作者之间合作、引用、共被引和耦合关系形成网络的分析,且这些分析目前已经形成了相对固定的研究团体和技术流程,但仍存在许多明显的问题。第一,普遍被忽略的一个问题是不同关系之间的相关性。不同关联网络可以用于同一个分析目的,例如合作关系网络和共被引关系网络都可以用于分析学科结构;而同一个网络又可以用于多种分析目的,例如作者耦合网络既可以分析学科结构也可以用来预测科学发展前沿,因此哪种网络更适用于哪种分析目的,这是从计量层面实施聚合需要研究的重点,网络之间的相关性本质上不同于网络所代表的语义上的关联。第二,目前对于作者实施聚类后的结果的解释主要是依靠方法使用者本身的认知,而没有探讨作者本身因创作资源所包含的语义信息,利用更多的方法从语义的层面对从作者角度实施的聚合进行进一步深入的研究具有重要的创新意义,是实现知识计量的重要途径。作为资源知识信息内容的直接创造者和责任者,作者在创作资源的过程中进行了复杂的信息和知识筛选,资源具有主题属性也是由作者本身具有的主题属性决定的,结合资源的作者,利用语义化方法挖掘资源、内容和作者之间的深度关联,也进一步体现了多元计量聚合体系的深度特征。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈