首页 理论教育 信息搜寻、检索和知识聚合的关系探析

信息搜寻、检索和知识聚合的关系探析

时间:2023-07-08 理论教育 版权反馈
【摘要】:传统的信息检索中存在的问题主要集中在3个方面,即信息过载、查询扩展和不确定性原理[34]。信息查询和检索过程中需要解决的一个重要问题是识别描述用户的兴趣点的表达,以及正确地区分资源集中的文档与用户查询是否相关。此外,用户为了获取相同的信息也会使用不同的搜索条件。索引编制和用户信息搜寻与检索行为具有较强的不确定性,此外,索引的不一致还会进一步增强这种不一致性。

信息搜寻、检索和知识聚合的关系探析

信息搜寻模型描述了从用户获取信息的基本需求出发到用户最终获取信息的整个过程。从用户的基本信息需求到用户和系统进行交互的过程是用户将信息需求显性化的过程,最初的流程是不可干预的;而在进行初步检索之后,和系统之间交互,实际上是用户对自身的需求再认识的一个过程。通过对初步检索结果进行筛选和认知,用户在对最初信息需求的理解基础上深化了通过检索过程的迭代,从而满足最终的信息需求,这个过程也是资源聚合的主要目的之一。即帮助用户进一步理解自己的信息需求,在实现对信息需求本质内涵进行深化的过程中同时对需求的外延进行拓展,从而更好地满足需求。然而,随着数字化水平和人类科学研究发展速度的提升,相关的信息与知识呈现出几何级数增加,这就导致对信息检索技术的要求越来越高。传统的信息检索中存在的问题主要集中在3个方面,即信息过载、查询扩展和不确定性原理[34]

图2-8 Macpherson的信息检索过程模型

首先,信息过载问题。信息查询和检索是根据用户的查询在一个资源系统中检索数据的过程,持续增长的数据量导致传统的信息检索系统效率下降,这是信息检索发展早期的信息过载问题。随着检索技术和算法的发展这些问题逐渐得到了良好的解决,在面对大量的文档数据集时,新的算法得到了良好的应用,但这就导致用户查询结果的过载问题。从用户的角度来看,当前所面临的主要问题已经从找不到资源转变为如何从庞大的检索结果中找到所需的资源,因此,对检索结果进行进一步的、深度的描述与揭示,提供给用户最需要的结果,是解决信息过载问题的主要目标。

其次,查询拓展问题。信息查询和检索过程中需要解决的一个重要问题是识别描述用户的兴趣点的表达,以及正确地区分资源集中的文档与用户查询是否相关。但对于用户来说,系统无法保证用户使用了正确的表达来描述自己的信息需求和查询。许多信息系统已经采用了多种手段尝试为终端用户提供多样化的检索查询途径,但是这些搜索多样化并不意味着实现了拓展上的多样化,例如词的形式、语法变化、同义词等,许多检索系统提供类似于关键词云的方式提供关键词拓展。此外这种拓展已经被使用到其他字段,例如相关作者等,作者的原始查询表达常常只包含与自身信息需求关联较为有限的信息,为了更好地实现信息搜寻和检索,有必要通过多种手段对用户的查询进行进一步的拓展。这种拓展的一般方法主要是利用系统中预先建好的词典或者受控词表,而其他的字段拓展例如作者、期刊等,往往只是对用户最初的检索结果进行出现频次排序而得出相关的推荐列表,利用更多的手段进行拓展十分必要。(www.xing528.com)

最后,不确定性原理。影响信息检索系统效率的一个重要因素是词汇的匹配精度问题,即同样的信息需求会通过不同的方式表述出来,而相关文档中则很可能只是用了其中的一种或几种描述信息内容。此外,用户为了获取相同的信息也会使用不同的搜索条件。有研究表明,任意两个作者利用相同的词语来描述他们的信息需求对象的概率仅为7%~18%[35]索引编制和用户信息搜寻与检索行为具有较强的不确定性,此外,索引的不一致还会进一步增强这种不一致性。但是,对于某个用户而言,常常不知道自身所需的信息还有哪些其他的表述方式,因此对于系统而言,为用户提供更多的信息完善用户的查询表达式是非常重要的。

科学知识聚合的主要目标即通过技术手段将资源进行重组,辅助现有的信息检索过程,满足用户的信息需求和知识需求。对于用户而言,其信息需求是多样的,正如前文所提及的,检索所提供的信息和知识在某种意义上并不能完全包含情境,相对独立的知识片段无法完全满足用户的知识需求,用户对于知识的吸收、理解绝不仅局限于概念或者数据本身,因此将完整的包含信息和知识上下文情境的文献提供给用户是必然的选择。然而,独立的文献也无法完全满足用户的需求,这个问题在科学研究中体现得尤其明显,用户需要对许多文献进行综合的分析、筛选,以满足对已有信息的需求,对资源和知识进行聚合的必要性也正体现于此。

此外,信息检索包含了多个要素,即资源集合、用户及用户需求、查询匹配机制和最后将资源表达给用户的机制。因此技术模型也可以被理解为表示文档、用户查询、查询与文档的关系模式,其四元组形式为[36]

其中,D是文献的表示,即文献集中的逻辑视图;Q是用户信息需求的逻辑视图,即用户查询;F是文献表示、查询及它们之间的关系的Frame;R (qi,dj)是排序函数,其结果为一个查询qi∈Q和文献dj∈D表示有关的评分,依据评分可以给出文献的排序结果。其中,R (qi,dj)是结果最终反馈给用户的重要依据,根据R (qi,dj )最终会生成一个查询匹配程度的资源排序列表。知识聚合和信息搜寻与检索的出发点相同,但是其最终的结果则并非类似于传统信息检索提供的平面化的列表式排序结果,而是在立体的知识网络结构中提供包含资源节点本身即由知识关联所构成的资源集合。此外,从四元组中我们还可以发现,信息检索中实现的主要是查询和需求之间的匹配,但是对于科学文献资源而言,每个资源都存在重要性和价值上的不同,这种差异无法在传统的信息检索中体现,但这种局限能够在聚合中加以弥补。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈