首页 理论教育 数字信息资源配置:语义注释和挖掘技巧精要

数字信息资源配置:语义注释和挖掘技巧精要

时间:2023-11-06 理论教育 版权反馈
【摘要】:在语义Web本体得到标准构建之后,基于本体的具体描述和表达构成了知识库。本体和知识库是语义注释和挖掘的前提和基础。这里所讨论的语义注释是一个特定的元数据产生和使用模式,目的在于促使新的信息存取方法,并扩展现存的方法。因此,应当将语义注释与Web内容分开。b.自动抽取的——在语义注释过程中发现,或使用其他知识发现和获取方法如数据挖掘。

数字信息资源配置:语义注释和挖掘技巧精要

在语义Web本体得到标准构建之后,基于本体的具体描述和表达构成了知识库。本体和知识库是语义注释和挖掘的前提和基础。

(1)语义注释

①语义注释内涵

语义Web是在Web内容上增加形式化语义(元数据、知识),以达到更有效的存取、管理、开发与利用。语义Web的生命力依赖于大量元数据的产生,对于语义Web来说,Web内容元数据的获取是一个主要挑战。应当说,手工获得清晰的语义并不是一个可行的方法,从手工到自动的转变应当首先研究和开发完全自动的语义注释方法。因此,应当面对和解决必要的设计和建模问题,提供必需的资源和基础设施。

自然语言处理(Natural Language Processing,NLP)和特定的信息抽取(Information Extraction,IE)中,命名实体(Named Entities,NE)被认为是:由名称指定的人、机构、地点等;在广义的解释中,还包括数量值(数字日期、钱的数量)等。命名实体的理解和管理需要更多的特定知识。

这里所讨论的语义注释是一个特定的元数据产生和使用模式,目的在于促使新的信息存取方法,并扩展现存的方法。所提供的注释体系基于这样的一种理解:文本中提到的命名实体构成了语义的重要部分。另外,使用不同种类的冗余、外部知识或背景知识,那些实体可与形式化描述链接起来,因而提供Web内容的更多语义和链接。[106]

简而言之,语义注释将到语义描述的链接分配给文本中的实体(图7-5)。这类元数据同时提供有关实体的类和实例信息。自动语义注释推进了许多新的应用:突出显示(highlighting)、索引和检索、分类、更高级元数据的产生、非结构化文本与可获得的相关知识之间的平滑转换。语义注释可应用于任意种类的文本——Web网页、规则的(非Web)文档、数据库中的文本字段等。另外,知识获取可基于更复杂的依赖(实体、事件和形势描述之间的关系分析等)的抽取而得到执行。[107]

图7-5 语义注释

a.分布式异构知识

对于语义注释表示来说,存在以下基本的必备条件:定义实体类的本体,并有可能指向这些类;允许区分和链接到语义描述的实体标识符;具有实体描述的知识库。

注释表示可以嵌入或者不嵌入到Web内容中。尽管嵌入的注释看起来更容易维护,但很多证据认为语义注释必须与所指向的内容分离,以促进动态的和特定用户的语义注释,因为嵌入的注释成为内容的一部分,不可能根据用户兴趣或使用环境而改变。另外,嵌入的复杂注释使得内容容量剧增,维护困难,如很难对具有语义注释的网页在保持一致性情况下进行更新。因此,应当将语义注释与Web内容分开。[108]

在语义注释表示中,另外一个需要考虑的问题是:语义注释是否与本体和知识库集成?集成多少?集成容易将注释与类和实体描述保持同步,然而,对于是否集成还必须考虑以下两方面的问题:

一方面,注释的基数和复杂性不同于实体描述。注释可以简单,但其数量通常比实体描述的大得多。甚至对于中等大小的文档集,注释也会非常多。假设10M注释和1M实体描述存储在RDF存储库中,还假设每个注释和每个实体描述用10个陈述表示,则对于能够有效地推理和存取10M陈述知识库和110M(100M+10M)陈述知识库来说,在推理方法和硬件上存在很大的区别。

另一方面,如果本体和知识库独立于与文档相关的元数据,则对于一个相同的文档来说,不同的抽取、处理或创造(authoring)方法将能够方便地提供不同的指向相同的知识库的元数据。另外,这种独立有可能区分元数据和知识库的拥有者及其责任,以便不同的团体分别开发和维护Web内容、元数据和知识库。

根据以上分析,最有效的方法是对文档、元数据(注释)和形式化知识(本体和实例数据)进行分开的表示和管理,见图7-6。[109]

图7-6 分布的异构知识

b.语义注释的存储

元数据必须以一种允许进行有效管理的格式加以存储;在语义注释中,这种格式应当满足以下的原则和需求[110]:允许文档的非嵌入注释根据其位置、特征和对知识库的引用进行存储、管理和检索;至少对一些格式来说,允许注释的嵌入;允许不同格式中注释的输出和交换。

(2)形式化知识和语义挖掘

①形式化知识及其功能

一旦具有了在本体中编码的实体类型、关系和属性,语义注释表示的下一个方面是实体描述。应当有可能以一种通用的、灵活的和标准的方法识别、描述和相互连接实体。这里将有关实体的形式化知识体称作知识库(Knowledge Base,KB)——这个词语最好地反映了除本体之外的形式化知识的表示,KB主要包含实例知识/数据。

本体定义所有的类、关系和属性,以及未来的限制和依赖,是KB的一种模式,两者应当保存在语义库中(semantic store)。语义库是形式化的知识推理和管理系统,能够提供根据所选形式的语法和语义进行存储和检索的基本操作。语义库可提供推理,它可以实施不同的推理战略。语义库还存在更高级的不视为必需的管理特征如:版本(versioning)、存取控制、交易支持、锁定、客户缓存[111]

KB可以具有两类实体知识:

a.预先移植的(pre-populated)——导入或从信任源中获得的。

b.自动抽取的——在语义注释过程中发现(如通过IE),或使用其他知识发现和获取方法如数据挖掘。例如,Armadillo是一个从大存储器(如Web)中抽取和集成信息的工具,在Sheffield得到开发。Armadillo能够:从无监督的方式学习中抽取事实和实体;处理非结构化文档如半结构化和自由文档。当前集成到Armadillo的学习算法是在Amilcare得到实现的(LP)。[112]

KB是否有或有多少预先移植的知识依赖于特定的实施。例如,有关具有一般重要性的实体的信息(如公司、人、地点的名称及它们的别名)能够极大地帮助IE用于自动语义注释。另外,特定领域和任务的知识能够帮助语义注释应用的定制——在扩展本体以匹配应用领域后,KB可以用特定的实体预先组装。例如,有关特定市场、客户、产品、技术和竞争者的信息对于商务智能来说具有很大的帮助。通常,简化在实际环境中没有应用的一般信息并构建一个更集中的KB是有益的。

因为IE(特别是命名实体识别:NER)允许识别新的实体和实体间的关系,所以可以用来充实和扩展KB。但由于这些方法内在的不精确,通过它们积聚的知识与预先组装的知识会不一样。因此,新的元数据的抽取通常可根植于一般的可信任知识,当然,积聚的实体对于索引、浏览和导航来说也是可用的。通过半自动评估过程,某些识别出的实体可转换为可信任的实体。KB扩展的一个重要部分是实体关系的模板抽取,根据正在处理的文本,KB的可识别部分会产生相应的变化。[113]

利用形式化知识,可针对文本中的重要知识点进行注释,并有效地提高机器处理文本内容的能力。图7-5是一个简化的语义注释图,在图中,上面方框内是一段文本,其中的“张三”和“北京”可看作是重要的知识点,它们被突出显示,并通过箭头分别链接到图下面方框内形式化知识(本体与知识库)中的“张三”和“北京”。通常认为,人通过学习和记忆已具备了相关的背景知识或环境知识,假设某人在阅读该段文本时,已知道“张三”和“北京”,则他在阅读时会很容易地联想到“张三”是男的,是一名武汉大学的教授,“北京”是中国的首都。在这样的背景知识下,这个人可以很容易地理解这段文本的内容。机器在遇到字符串“张三”和“北京”时,如果没有形式化知识的支持,会如同一个不认识“张三”和不知道“北京”的人一样,只是将“张三”解释为字符串“张三”,将“北京”解释为字符串“北京”,而无法明白其中的语义信息。如果有了图中形式化知识的支持,机器则能够与一个认识“张三”和知道“北京”的人一样具有相关的背景知识。机器能够借助文本中的突出显示,顺着链接找到形式化知识中的实例,并利用形式化知识(如同人的大脑知识一样)“联想”到:张三是男的,是一名教授,他的电子邮箱是zhangsan@whu.edu.cn,他所属的单位是武汉大学,武汉大学位于武汉,武汉是湖北的一个城市,湖北是中国的一个省;北京是一个城市,是中国的首都。在形式化知识的支持下,机器所“联想”到的这些信息,比起人的联想来说,会更精确、更全面。

形式化知识所带来的有利之处体现在:

第一,所有类型的资源可以以一种更标准和统一的方式得到管理。

第二,更容易在适当的一般层次上管理不同类型的语言知识。例如,适当结构化的实体类型层次将允许实体及其在文本中的引用以更精确的方法得到分类,但仍然能够以更通用的模式得到容易的匹配。例如,某山脉可能具有特定的注释,但仍然可以在一个期望位置的语法规则中进行匹配。

第三,任意可获得的知识将直接通过来自元数据的对语义库的引用而得到存取。信息抽取中新增的处理层能够在知识库中产生和存储新发现实体的描述,当相同的实体在文本中再次遇到时,可以直接链接到知识库中已产生的描述。

形式化知识能够提供Web内容和能力的计算机解释标记,与机器代理技术一起,有望使得目前很多手工完成的任务变成自动执行。形式化知识具体定义和解决的基本任务如下:

a.在文本文档中注释和链接命名实体。

b.在考虑到参考实体的情况下索引和检索文档。

c.促进语义Web挖掘和知识推理。

②语义挖掘

语义挖掘主要涉及语义Web上的文档分类、语义Web上的文档聚类、语义Web上信息抽取的数据挖掘、本体映射、用户建模与语义Web。[114]Web内容挖掘主要针对非结构化数据而言,即所挖掘的Web内容是按照供人类理解的形式设计的,而却很难被计算机所理解,因而挖掘难度大,挖掘效率不高。相反,语义Web的内容是按照某种语义方式进行结构化设计,以便该内容能够被计算机所理解。从功能上看,语义Web将是一个能够“理解”人类信息的智能网络。语义Web为Web挖掘提供了机器可处理的对Web内容进行描述的形式化知识(本体和知识库),再加上语义注释,这些都为Web挖掘提供了良好的基础和框架,必将极大地提高Web挖掘效能。

【注释】

[1]http://www.199it.com/archives/201101277090.html,2011-12-15.

[2]吴勇.网络信息资源配置体系探析[J].厦门理工学院学报,2008(2):74-77.

[3]霍国庆.我国信息资源配置的模式分析(一)[J].图书情报工作,2000(5):32-37.

[4]段宇锋,刘伟.网络信息资源配置主体刍议[J].图书情报知识,2007(6):35-39.

[5]周丽霞.网络信息资源配置的技术影响研究[J].图书馆学研究,2006(11):44-46.

[6]查先进等.信息资源配置与共享[M].武汉:武汉大学出版社,2008.

[7]孙建军,戴咏梅.高速信息网络的信息资源配置[J].情报杂志,2000(5):40-43.

[8]程娟.以用户信息需求为导向的网络信息资源配置研究[J].图书馆工作与研究,2008(5):29-32.

[9]梁平,陈红勤.网络信息资源配置的意义与原则[J].现代情报,2008(10):70-72.

[10]马费成,夏永红.网络信息的生命周期实证研究[J].情报理论与实践,2009(6):1-7.

[11]http://www1.cnnic.cn/resource/daily/199710/2.shtml,2011-09-04.

[12]http://www.chinanews.com/it/it-itxw/news/2010/03-03/2149275.shtml,2010-07-31.

[13]http://www.cnnic.cn/research/zx/qwfb/,2013-07-31.

[14]http://yh.ntu.edu.cn/chapter04/material/netinfo.htm,2013-07-31.

[15]邱均平,段宇锋等.网络信息资源的经济管理研究(Ⅱ)——论我国互联网信息的有效配置[J].情报学报,2001(4):386-394.

[16]杨凤,查先进.网络信息资源配置现状及问题研究[J].图书情报知识,2009(增刊):65-67.

[17]陈春燕.我国网络信息资源配置的现状分析及其有效配置[J].现代情报,2009,29(1):64-67.

[18]胡昌平,杨曼.论网络信息资源的组织与配置[J].情报方法,2003(3):54.

[19]罗曼.网络环境中的信息资源配置与共享问题[J].图书馆,1997(3):16.

[20]韩耀,张春法.网络经济下信息资源配置研究[J].情报杂志,2004(10):9.

[21]霍国庆.我国信息资源配置的模式分析(二)[J].图书情报工作,2000(6).

[22]周毅.试析网络环境下信息资源配置的特点与基本策略[J].图书情报工作,2003(3).

[23]黎春兰,邓仲华.网络信息资源配置现状及问题研究[J].图书情报知识,2009(增刊):82-86.

[24]孙瑞英.信息资源配置质量研究[D].吉林大学,2007.

[25]Ward,M.A.,Mitchell,S.A comparison of the strategic priorities of public and private sector information resource management executives[J].Government Information Quarterly,2004(21).

[26]黄郴.网络信息资源的无限共享模式[J].理论与探索,2001,24(2):84-114.

[27]赵筱媛.企业信息资源配置理论方法与战略规划研究[D].长春:吉林大学,2005.

[28]朱备战,寿文霞.企业信息资源微观优化配置模式的设计及特点功能[J].情报杂志,2000(7):3-6.

[29]周毅.论信息资源配置的理想状态及其控制[J].图书情报工作,2003(11):36-41.

[30]周毅.论信息资源配置的理想状态及其控制[J].图书情报工作,2003(11):36-41.

[31]马费成.信息资源开发与管理[M].北京:电子工业出版社,2004:356.

[32]沈波.企业信息资源配置与企业绩效——基于协同与战略的研究视角[J].情报理论与实践,2008(4):535-538.

[33]娄策群,桂学文.现代企业信息资源优化配置[J].情报探索,1998(3):29-31.

[34]耿爱静,耿爱丽.企业信息资源配置测度研究[J].情报科学,2005(12):1841-1844.

[35]赵筱媛.企业信息资源配置理论方法与战略规划研究[D].长春:吉林大学,2005.

[36]周晓光,朱蓉.企业信息资源配置的模糊综合评价[J].模糊系统与数学,2004(3)121-126.

[37]赵筱媛,靖继鹏等.企业信息资源配置能力与配置效率的评价体系研究[J].经济纵横,2005(6):69-70.(www.xing528.com)

[38]齐莉丽.企业信息资源管理水平评价研究[J].科技进步与对策,2005(1):50-51.

[39]谢康,肖静华.信息资源测度、国际比较与中国的战略选择[J].情报学报,1997(3):202-211.

[40]彭凤.信息资源丰裕系数测度模型评析及优化[J].情报杂志,2006(6):56-60.

[41]Samulson,P.A.Proof that properly anticipated prices fluctuate randomly[J].Industrial Management Review,1965(6):41-50.

[42]Merton R.C.Theory of rational option pricing[J].The Bell Journal of Economics and Management Science,1973(4):141-183.

[43]查先进,陈明红.信息资源配置的期权价格模型[J].图书与情报,2009(3):31-45.

[44]裴雷,马费成.公共数字信息资源开发利用现状和对策[J].情报理论与实践,2008(1):26-32.

[45]Marchionini,G.Digital libraries as phenotypes for digital societies[M].Berlin:Springer,2009.

[46]郭少友.基于P2P的数字图书馆虚拟联盟研究[J].计算机与数字工程,2008(6):73-76.

[47]马费成,裴雷.我国信息资源共享实践及理论研究进展[J].情报学报,2005(3):277-285.

[48]王晓光.信息资源共享效率初探[J].情报科学,2003,21(11):1125-1128.

[49]查先进等.信息资源配置与共享[M].武汉:武汉大学出版社,2008(7).

[50]李伟超,王兰敬.美国数字图书馆项目建设回顾[J].新世纪图书馆,2003(3):63-68.

[51]https://www.clir.org/pubs/archives/ejournal.htm,2011-09-04.

[52]马艳霞,高新亮.欧洲数字图书馆建设特色项目研究的回顾与思考[J].现代情报,2004(12):66-71.

[53]裴雷,马费成.公共数字信息资源开发利用现状和对策[J].情报理论与实践,2008(1):26-32.

[54]http://www.ccnt.com.cn/html/gxgc/index2.htm?file=01-01,2013-07-31.

[55]马费成,裴雷.我国信息资源共享实践及理论研究进展[J].情报学报,2005(3):277-285.

[56]江向东.我国数字图书馆建设现状、存在的问题及其对策[J].福建师范大学学报,2003(5):143-148.

[57]蒋永福.论公共信息资源管理——概念、配置效率及政府规制[J].图书情报知识,2006(6):11-15.

[58]王芳.政府信息资源的经济学特征及其产权界定[J].图书情报工作,2005(5):50-54.

[59]王勇.透明政府[M].北京:国家行政学院出版社,2005.

[60]周伟,韩家勤.电子政务信息资源的优化配置及其效率分析[J].内蒙古科技与经济,2008(20):183-184.

[61]马费成,王晓光.信息资源的优化配置与共享效率[J].情报理论与实践,2003(4):381-384.

[62]周伟,韩家勤.电子政务信息资源的优化配置及其效率分析[J].内蒙古科技与经济,2008(20):184.

[63]姜忠.论经济学成本理论视域下的政府信息公开范围[J].法学论坛,2010(4):64-68.

[64]于丽先,王庭芳.电子政务环境下公务员的培养和使用[J].商业时代,2006(32):50-51.

[65]http://www.e-gov.org.cn/news/news007/2011-03-22/116986.html,2011-09-04.

[66]http://www.cqdx.gov.cn/theory/article.aspx?id=1896,2011-09-04.

[67]张鑫.论电子政务环境下公务员信息素质的教育培养[J].中国西部科技,2008(30):88-89.

[68]何振,周伟.电子政务信息资源共建共享的经济特性及其效率分析[J].情报杂志,2005(4):10-13.

[69]李晶.美国联邦政府信息资源管理体制研究[D].合肥:安徽大学,2010.

[70]http://obo.sourceforge.net,2006-04-08.

[71]http://marinemetadata.org/examples/mmihostedwork/ontologieswork,2006-04-08.

[72]http://www.sciam.com/article.cfm?articleID=00048144-10D2-1C70-84A9809EC588EF21,2006-04-08.

[73]Hendler,J.,Berners-Lee,T.,Miller,Eric.Integrating Applications on the Semantic Web[J].Journal of the Institute of Electrical Engineers of Japan,2002,122(10):676-680.

[74]http://www.w3.org/RDF/,2006-04-08.

[75]Shadbolt,N.,Hall,W.,Berners-Lee,T.The semantic Web revisited[C].IEEE Intelligent System,May/June 2006:96-101.

[76]Agarwal,S.,et al.Annotation,composition and invocation of semantic Web services[J].Web Semantics:Science,Services and Agents on the World Wide Web,2004,2(1):31-48.

[77]http://www.w3.org/2001/sw/,2006-04-08.

[78]http://www.consortiuminfo.org/bulletins/semanticweb.php,2006-04-08.

[79]http://eprints.pascal-network.org/archive/00000841/01/roadmap.pdf,2006-04-08.

[80]Hendler,J.,Berners-Lee,T.,Miller,E.Integrating applications on the semantic Web[J].Journal of the Institute of Electrical Engineers of Japan,2002,122(10):676-680.

[81]http://www.sciam.com/article.cfm?articleID=00048144-10D2-1C70-84A9809EC588EF21,2006-04-08.

[82]http://www.w3.org/DesignIssues/Semantic.html,2006-04-08.

[83]http://www.w3.org/TR/2004/REC-rdf-concepts-20040210/,2006-04-08.

[84]http://www.w3.org/TR/2004/REC-rdf-schema-20040210/,2006-04-08.

[85]Alani,H.,Kim,S.,et al.Automatic ontology-based knowledge extraction from Web documents[J].IEEE Intelligent Systems,2003,18(1):14-21.

[86]http://www.w3.org/TR/2004/REC-owl-features-20040210/,2006-04-08.

[87]http://protege.stanford.edu/overview/protege-owl.htm l,2006-04-08.

[88]Plessisa,M.D.,Boon,J.A.Knowledge management in eBusiness and customer relationship management:south African case study findings[J].International Journal of Information Management,2004(24):73-86.

[89]Salomann,H.,Dous,M.,Kolbe,L.,Brenner,W.Rejuvenating customer management:how tomake knowledge for,from and about customers work[J].European Management Journal,2005,23(4):392-403.

[90]Lin,Y.,Su,H.Y.,Chien,S.A knowledge-enabled procedure for customer relationship management[J].Industrial Marketing Management,2006(35):446-456.

[91]Gulati,R.,Garino,J.Get the right mix of bricks and clicks[J].Harvard Business Review,2000(78):107-114.

[92]Ha,S.H.Applying knowledgeengineering techniques to customer analysis in the service industry[J].Advanced Engineering Informatics,2007(21):293-301.

[93]http://www.hec.unil.ch/yp/TALK/slides/oesseo2001.pdf,2006-04-08.

[94]http://www-kasm.nii.ac.jp/SWFAT/PAPERS/SWFAT05R.PDF,2006-04-08.

[95]http://www.co-ode.org/resources/tutorials/ProtegeOWLTutorial.pdf,2006-04-08.

[96]http://www.w3.org/TR/owl-guide/,2006-04-08.

[97]http://www.co-ode.org/resources/tutorials/ProtegeOWLTutorial.pdf,2006-04-08.

[98]Shadbolt,N.,Hall,W.,Berners-Lee,T.The semantic Web revisited[C].IEEE Intelligent System,May/June 2006:96-101.

[99]Shadbolt,N.,Hall,W.,Berners-Lee,T.The semantic Web revisited[C].IEEE Intelligent System,May/June 2006:96-101.

[100]http://www.flickr.com,2006-04-08.

[101]http://del.icio.us,2006-04-08.

[102]Shadbolt,N.,Hall,W.,Berners-Lee,T.The semantic Web revisited[C].IEEE Intelligent System,May/June 2006:96-101.

[103]http://xm lns.com/foaf/0.1,2006-04-08.

[104]http://www.websemanticsjournal.org/ps/pub/2005-20,2006-04-08.

[105]Lenat,D.B.Cyc:a large-scale investment in knowledge infrastructure[J].Communications of the ACM,1995,38(11):32-38.

[106]Popov,B.,Kiryakov,A.,et al.KIM—semantic annotation platform[C].2nd International Semantic Web Conference,2003.

[107]Kiryakov,A.,Popov,B.,et al.Semantic annotation,indexing,and retrieval[C].Proceedings of2nd International Semantic Web Conference,2003.

[108]Cai,M.,Frank,M.,et al.A subscribable peer-to-peer RDF repository for distributed metadata management[J].Web Semantics:Science,Services and Agents on the World Wide Web,2004,2(2).

[109]Kiryakov,A.,Popov,B.,et al.Semantic annotation,indexing,and retrieval[C].Proceedings of2nd International Semantic Web Conference,2003.

[110]Harth,A.An integration site for semanticWebmetadata[J].Web Semantics:Science,Services and Agents on the World WideWeb,2004,1(2).

[111]Tsarkov,D.,Horrocks,I.Efficient reasoning with range and domain constraints.Proceedings of the 2004 Description Logic Workshop,2004.

[112]http://www.smi.ucd.ie/Dagstuhl-MLSW/proceedings/iria-ciravegna.pdf,2006-04-08.

[113]Popov,B.,Kiryakov,A.,et al.KIM—a semantic platform for information extraction and retrieval[J].Journal of Natural Language Engineering,2004,10(3/4).

[114]http://eprints.pascal-network.org/archive/00000841/01/roadmap.pdf.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈