首页 理论教育 命名实体识别提取-基于语义网的个性化网络学习服务

命名实体识别提取-基于语义网的个性化网络学习服务

时间:2023-11-26 理论教育 版权反馈
【摘要】:NER根据实体边界、实体类型两方面衡量命名实体识别效果。规则模板方法在一些表达规范的专业文档的命名实体识别任务中,能取得较好效果。图4-2基于命名实体识别的语义数据自动提取与基于规则及词典的NER方法相比,基于统计的NER方法更依赖语料库和知识库的支持。基于隐马尔科夫模型的NER在实体类别识别方面具有良好表现,但精度稍差[24]。

命名实体识别提取-基于语义网的个性化网络学习服务

语义数据自动提取在任务上接近于命名实体识别(NER)。NER根据实体边界、实体类型两方面衡量命名实体识别效果。语义数据自动提取与命名实体识别的关系如图4-2所示,命名实体识别方法主要分为基于规则及词典的方法、基于统计的方法、混合方法。其中,基于规则及词典的方法需要由领域专家制作规则模板,通过规则模板中的语法特征、表达规则在资源文档中进行匹配。规则模板方法在一些表达规范的专业文档的命名实体识别任务中,能取得较好效果。但由于应用领域较单一,难以进行泛化,可移植性较差。随着待提取数据的急剧增加,规则模板法难以适应大规模数据集中NER的需要。此时,知识库应运而生。通过更新词典中的术语并改进规则,为知识库增加可供NER使用的已标注示例。知识库在NER技术中曾广受关注,但由于知识库建设周期较长,除了少数专业领域知识库外,其他的知识库不常得到维护。有学者提出设想,让知识库使用者自行对知识库进行更新及维护,此方法在可操作性上有待商榷[23]。但一些通用性的知识库,如Wikipieda等已经成为重要的外部知识来源。整合了包括Dbpedia等大型关联数据集的LOD近年来也开始被用于NER。

图4-2 基于命名实体识别的语义数据自动提取

与基于规则及词典的NER方法相比,基于统计的NER方法更依赖语料库和知识库的支持。主要包括基于最大熵的NER、基于隐马尔科夫模型的NER、基于支持向量机的NER、基于条件随机场的NER等。其中,最大熵的NER具有较好的通用性,结构紧凑,但训练代价高。基于隐马尔科夫模型的NER在实体类别识别方面具有良好表现,但精度稍差[24]。基于支持向量机的NER的性能稳定,但对于语料库的依赖令此方法在泛化方面表现欠佳。(www.xing528.com)

基于统计的NER可以在语料库及知识库的支持下,对待处理数据进行特征选取和组合。这一处理方法与选择性集成学习中的分类器选取有着异曲同工之处。经过特征选取和组合后的示例应用基于条件随机场的NER方法中可以获得全局最优解,但收敛速度慢,训练周期长。在处理海量数据时,可以发现基于最大熵的NER、基于隐马尔科夫模型的NER、基于支持向量机的NER、基于条件随机场的NER等方法单独使用的效果都难以满足即时处理的需要。因此,需要采用混合方法,通过规则知识修剪,排除待处理数据中无法获得实体识别结果的部分,令待处理数据状态空间紧致,从而降低NER时间开销。混合方法是规则、词典、模型、算法等的集成运用,主要包括统计学习集成,规则、词典、机器学习法集成,多模型、算法迭代等。其中,多模型、算法迭代混合方法可以有效进行实体边界、实体分类修正。基于规则、词典、机器学习的混合方法为启发式集成学习提供了方案。

NER技术还大量应用于问答系统、机器翻译多媒体索引、信息抽取等任务中。尽管基于统计的NER无法用于大规模数据的处理,但在启发式集成学习算法的协助下,多文档自动摘要、自动语义提取、自动语义标注所组成的NER在信息抽取中的具体应用可响应海量复杂数据处理的需求。此方法与半监督机器学习法相似,充分利用现实中大量存在的未标注语料集,对人工标注语料进行训练,得到标注后数据。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈