首页 理论教育 信息抽取方法:理论、方法与应用

信息抽取方法:理论、方法与应用

时间:2023-11-20 理论教育 版权反馈
【摘要】:信息抽取的任务虽然较为多样,但实现方法却较为相似。由于信息抽取问题并不能当成分类问题或者序列标注问题解决,因此需要采用一些方法将信息抽取问题转化成为机器学习可解的问题。图1-7实体标注的BIO标签表示BIO标签转化的思想在信息抽取问题的研究中非常重要。Wu[120]利用远距离监督学习思想,提出了一种从维基全文中自动抽取信息的方法。

信息抽取方法:理论、方法与应用

信息抽取的任务虽然较为多样,但实现方法却较为相似。一般而言,可以将已有的信息抽取方法归类为基于知识的方法(knowledge-based methods)、有监督学习方法(supervised learning methods)和无监督学习方法(unsupervised learningmethods)三类。

(1)基于知识的方法

早期的信息抽取系统主要依靠专家编制规则实现信息抽取。早期的评测多是使用插槽的方法实现信息抽取,如给定新闻,信息抽取任务往往是从新闻文本中抽取出时间、地点、任务、时间等,并将相应实体插入预先编制好的模板槽(slot)内。对于不同的任务,相关领域专家会编制好相应的模板,利用模板匹配文本抽取需要的信息。这类方法对于在固定领域、有限数据、固定类型的数据情形下是比较有效的。但是,这一方法对规则编制人员的领域知识和技能水平有着较高的要求,成本较大。同时,随着规则的增多,规则之间的冲突也将变得越来越多且难以解决。

规则方法在早期作为探索性的研究是有意义的,随着研究的深入,人们开始探索如何通过自动或者半自动的方法进行信息抽取,机器学习方法逐渐被引入到信息抽取中。

(2)有监督学习方法

有监督学习方法是信息抽取中应用最为广泛的一类方法,Kim[58]、Riloff[59]、Soderland[60]等将有监督学习引入到信息抽取中,利用机器学习方法构造自动学习抽取器(extractor)从标注数据中抽取信息。他们的工作也构成了后续一系列研究的基础。[61]

同基于知识的方法相比较,基于有监督学习的信息抽取技术具有很多优点。最大的优势在于,由于学习架构与领域无关,只需要为抽取器准备好领域相关标注语料,就可以通过机器学习得到领域适用的抽取器,这使得信息抽取技术终于具备了一定的通用性。

有监督学习方法依赖于机器学习模型的效果,在众多的机器学习模型中,支持向量机、最大熵模型和条件随机场是应用最多的学习模型。其中,支持向量机和最大熵模型用于解决分类问题,而条件随机场通常用于解决序列标注问题。由于信息抽取问题并不能当成分类问题或者序列标注问题解决,因此需要采用一些方法将信息抽取问题转化成为机器学习可解的问题。一个典型的转化方法是将信息抽取问题转化为标签判定问题,例如在命名实体识别问题中,可以通过BIO标签标注可能的实体,然后通过对标签表示,将信息抽取问题转化为机器学习可解的问题,如图1-7所示。

图1-7 实体标注的BIO标签表示(www.xing528.com)

BIO标签转化的思想在信息抽取问题的研究中非常重要。Nymble系统[62]是最早的采用标签转化方法构造的命名实体标注系统,使用隐马尔可夫模型和标签转化方法,文献[63]则最早将最大熵模型应用于命名实体标注。类似于BIO标签的思想同样也可以将信息抽取问题转化成为分类可解问题:每一个词汇或者词汇组合是否属于特定类别。

在有监督学习方法中,训练集的构造是非常重要的,训练集的质量和规模直接决定了信息抽取的效果。为此,主动学习方法(active learning)也得到了一定的应用,通过对小样本标注数据的分析,这类方法可以提供建议,帮助标注人员选择标注数据来源。

有监督学习方法的效果一定程度上依赖于机器学习方法的效果,随着机器学习技术的进步,越来越多的机器学习方法被引入到信息抽取方法中。在众多机器学习方法中,使用较多的方法有支持向量机(support vector machine,SVM)[64-65]、隐马尔可夫模型(hidden markov model,HMM)[66]、条件随机场(conditional random fileds,CRF)[67]等。近期,深度神经网络方法也得到了较多的应用,文献[68,69]等对其做了一定的探索。

(3)无监督学习方法/半监督学习方法

此类学习方法类别多样,Hearst[7]可以被视为无监督学习方法用于信息抽取的滥觞。Know ItAll系统则是较早的通过自主学习方法获得学习样本的信息抽取系统。在此类方法中,远距离监督(distant supervision)作为一种自监督学习方法,在信息抽取研究进展中有着非常重要的地位。[70]

图1-8 维基上马尔代夫条目下的信息框

信息抽取需要标注样本和预先界定的关系类别,然而这种数据的获得是非常困难的。在Wikipedia等大规模互联网知识库出现以前,这些工作都需要依靠人工进行。然而,Wiki类网站以及随之而来的Freebase等知识库为信息抽取提供了良好的数据支持。图1-8给出了维基网站上马尔代夫条目下的信息框(infobox)内容,从中可以看到“马尔代夫”概念相关的各个属性以及属性值,如首都、最大城市、官方语言等。由于这类知识库的出现,信息抽取研究者可以轻松获得大量的数据用于训练模型。DBpedia[76]利用维基数据构造了一个规模庞大的知识库。Wu[120]利用远距离监督学习思想,提出了一种从维基全文中自动抽取信息的方法。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈