首页 理论教育 维基百科知识组织技术研究成果

维基百科知识组织技术研究成果

时间:2023-11-20 理论教育 版权反馈
【摘要】:图6-6描述的是维基百科中的文档网络和分类树结构以及两个网络结构之间的关联关系。维基百科中消歧页面提供的词语与多个文档的一对多关系与说明性解释,可以增加歧义词的背景知识,解决文本中的一词多义与命名实体消歧问题。

维基百科知识组织技术研究成果

1.文档网络和分类树

图6-5 维基百科知识创建与组织过程

维基百科的基本结构单元是一个个文档页面,每个文档都有唯一的ID标识以对每一个概念进行详尽的描述。一般文档的首句会对这个概念作一个概述性的定义,第一段对概念作总体介绍,然后从不同角度对概念的细节进行详细描述与介绍,这些描述和介绍构成了文档的主体内容。概念一般会具有许多相同的格式属性。每一个文档都必须根据相应的标准格式来组织,信息框提供标准化同类概念描述的统一模板,所显示的属性从不同侧面对概念的特点进行描述。图6-6描述的是维基百科中的文档网络和分类树结构以及两个网络结构之间的关联关系。分类树呈现的是一个有向图结构,该结构以层次树为主体,其中Ci为某一分类;文档网络也是一个规模巨大的有向图,该有向图包含了大量的链接关系,其中Ai为某一具体文档,分类树延伸至知识节点,知识节点从属于某一分类树,从而使得文档网络与分类树产生紧密关联[33]

6-6 维基百科中的文档网络与分类树结构的关联

2.文档链接和分类链接

某两个文档Ai、Aj之间通过其间的超链接相互发生关联并构成文档网络。每篇文档能通过超链接链向多个其他文档。在维基百科中,除了使用“Category:Contents”这一语法作为所有分类的根结点外,其他任何文档和分类都必须至少从属于某一个分类,如“原子”从属于“化学”和“原子物理学”两个分类。对其分类结构来说,并非只是一个简单的树型结构系统,其实质是一个基于树状结构的有向图。在对某一个文档进行查找时,用户只需要从某一根结点出发,通过路径遍历从而搜索到该文档。除了文档与目录之间、目录与目录之间可以关联之外,不同文档和文档之间也能通过页面内容中的超链接联系起来。可以通过这些超链接从一个概念扩展出若干个关联的概念。这种关系类似于撰写论文时文献中的引用关系,在浏览某一文档时,可以通过正文中的超链接跳转到相应的文档去了解与其相关的概念,从而更全面准确地了解该概念的背景性知识和先验性知识。(www.xing528.com)

同时,维基百科中的文档和分类之间的链接是一种双向链接,每个文档会同时指向一个或多个分类,而相应的一个分类也可以同时指向多篇文档和多个相关分类。因此我们可以把这种分类看作文档所具有的语义标签,这种语义标签使得文档网络和分类树之间具有紧密的关联关系[34]

3.重定向

在维基百科中,一个概念只能使用一个文档来对其进行描述,但通常情况下某一概念可能同时存在多个同义词,为了避免多个同义词文档的出现,维基百科为不同的同义词采用重定向技术,使其能够重定向到唯一的文档页面。重定向页面不包含具体的解释内容,仅仅只是通过重定向链接指向与当前页面标题同一概念但包含解释内容的主页面。对同一概念的不同表达方式(如简称、别名等),维基百科选择最有代表性的一个作为主页面供用户给它添加解释文本,其他名称则通过重定向页面直接跳转到该页[35]。重定向是一种特殊的页面,它提供的运作机制使得人们在输入某一概念名称进入条目时,系统能够自动跳转到重定向页面内部指定的另一相关页面中,从而实现相关页面可以以多个名称进行访问。举例来说,如果设定了一个指向“澳大利亚”的名称为“澳洲”的重定向页,任何人都可以用“澳洲”这一名称直接进入“澳大利亚”这个条目中[36]

4.消歧页

一些词语在字面上相同却含有多种语义,即一词多义现象。除了词语固有的多义性外,随着事物的发展变化,一些词语的指代对象也会随着时代的变化而具有新的含义。常用的词义消歧方法主要是根据多义词在文本中出现的上下文信息来确定其准确语义。维基百科中消歧页面提供的词语与多个文档的一对多关系与说明性解释,可以增加歧义词的背景知识,解决文本中的一词多义与命名实体消歧问题。文档中罗列了所有多义词可能指向的文档,并对概念作简要的解释,如此有助于消除文本中的歧义问题。消歧页面中某义项的格式一般是歧义概念加上注释的形式,维基百科会依据选择频率的高低向用户推荐一个首选的解释,其他的解释则会按不同类别依次排列。比如概念“Key”,其在维基百科中的推荐的解释是“Key(lock)”,同时又按“Biology”、“Computing”、“Fiction”、“Places”、“Music”、“Surnames”等类别而依次排列,用户可以获取不同类别的解释。

5.随机页面技术

随机页面技术开发始于20世纪90年代末。打开维基主页,选中栏目“随机页面”,便可在没有通过知识导航或分类链接的情况下浏览知识条目。随机页面促进了知识的发现、交流以及使用,还有利于对尚未编辑类别的资源条目进行类别的划分。随着维基百科技术的发展,在随机页面讨论(Random Pages Discussion)中可以发现,有许多维基百科参与者非常喜欢随机页面的随意性,并为其提出建议和改进措施。随机页面促使维基百科参与者在浏览页面时就如同随意翻阅纸质百科全书一样,给人一种耳目一新的体验[37]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈