【摘要】:第一种思路的代表性系统Text Runner[118]、WOE[120]系列,都遵循了第一种功能思路,即“标注—学习—抽取”。WOE系统包括一个系列,有WOElex、WOEparse等,WOE利用远距离监督学习的思想,将维基的数据作为训练数据来源,因为数据集规模和质量的上升,WOE系统取得了较好的实验效果。WOEparse也是较早将句法分析引入开放信息抽取的系统。第二种思路是利用语言的特性,使用规则实现信息标注,代表性的系统有REVerb、ClauseIE等。
开放信息抽取系统的构建一般有两种思路,第一种思路是利用规则或者远距离监督的方式获得训练数据,然后使用序列标注学习方法学习标注模型,最后利用得到的模型标注新数据;第二种思路是利用语言的一些特性,通过编制或者学习规则实现信息标注。
第一种思路的代表性系统Text Runner[118]、WOE[120]系列,都遵循了第一种功能思路,即“标注—学习—抽取”。
Text Runner使用了启发式方法从宾州树库中提取训练数据,使用了贝叶斯模型,Postag特征和组块特征,训练了一个抽取工具。Banko[119]又进一步地将条件随机场模型引入到抽取器学习中。WOE系统包括一个系列,有WOElex、WOEparse等,WOE利用远距离监督学习的思想,将维基的数据作为训练数据来源,因为数据集规模和质量的上升,WOE系统取得了较好的实验效果。WOEparse也是较早将句法分析引入开放信息抽取的系统。(www.xing528.com)
第二种思路是利用语言的特性,使用规则实现信息标注,代表性的系统有REVerb、ClauseIE等。这些系统使用组块分析或者句法分析,利用语义分析器得到的词汇关系,通过规则加以过滤得到需要的关系数据。尽管方法简单,但目前最好的效果反而是通过这类方法得到的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。