首页 理论教育 开放信息抽取方法及代表性系统分析

开放信息抽取方法及代表性系统分析

时间:2023-11-20 理论教育 版权反馈
【摘要】:第一种思路的代表性系统Text Runner[118]、WOE[120]系列,都遵循了第一种功能思路,即“标注—学习—抽取”。WOE系统包括一个系列,有WOElex、WOEparse等,WOE利用远距离监督学习的思想,将维基的数据作为训练数据来源,因为数据集规模和质量的上升,WOE系统取得了较好的实验效果。WOEparse也是较早将句法分析引入开放信息抽取的系统。第二种思路是利用语言的特性,使用规则实现信息标注,代表性的系统有REVerb、ClauseIE等。

开放信息抽取方法及代表性系统分析

开放信息抽取系统的构建一般有两种思路,第一种思路是利用规则或者远距离监督的方式获得训练数据,然后使用序列标注学习方法学习标注模型,最后利用得到的模型标注新数据;第二种思路是利用语言的一些特性,通过编制或者学习规则实现信息标注。

第一种思路的代表性系统Text Runner[118]、WOE[120]系列,都遵循了第一种功能思路,即“标注—学习—抽取”。

Text Runner使用了启发式方法从宾州树库中提取训练数据,使用了贝叶斯模型,Postag特征和组块特征,训练了一个抽取工具。Banko[119]又进一步地将条件随机场模型引入到抽取器学习中。WOE系统包括一个系列,有WOElex、WOEparse等,WOE利用远距离监督学习的思想,将维基的数据作为训练数据来源,因为数据集规模和质量的上升,WOE系统取得了较好的实验效果。WOEparse也是较早将句法分析引入开放信息抽取的系统。(www.xing528.com)

第二种思路是利用语言的特性,使用规则实现信息标注,代表性的系统有REVerb、ClauseIE等。这些系统使用组块分析或者句法分析,利用语义分析器得到的词汇关系,通过规则加以过滤得到需要的关系数据。尽管方法简单,但目前最好的效果反而是通过这类方法得到的。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈