在数据转换层中负责将输入的自定义文档通过语义标注等方法转换为RDF三元组。基于已有或新建的语义关联数据对学习资源数据进行消歧,抽取概念、属性、实例及概念间的关系,通过类映射、实体关联、属性关联等方法以主体、客体、谓词的形式表示为rdf的三元组[29]。自动把学习资源数据转换为机器和人都可理解的RDF数据,以便进一步处理。
数据转换层自动语义标注主要依靠SRAET(Semantic Relation Automatic Extract Task)方法,首先输入知识点条目列表及教学文档资料,然后进行文本预处理,进行分词、停用词处理。对于预处理后的文档,以词汇为单位,查询LOD,如果存在对应项,则通过关联数据中正确本体的匹配方式处理为RDF三元组。具体步骤包括,类映射、实体关联、属性关联、输出RDF三元组。
图4-4 数据转换层
如果LOD中不存在对应项,则通过基于半监督机器学习的方式处理为RDF三元组。具体步骤包括,进行概念联系判断,对可能存在联系的概念进行概念相似度计算,得到概念间关系值列表。对相似度达到设定阈值的关系进行非类属关系计算,如果超过设定阈值,在本实验系统中将该对关系识别为SameAs关系,为其生成索引表,生成RDF三元组。
如果非类属关系计算未超过设定阈值,则进行类属关系计算。(www.xing528.com)
类属关系计算步骤包括,明确计算对象是具有较高相关度且不存在SameAs关系的概念对。首先进行概念时间轴位置计算,此计算通过概念间由具体时间节点标志的时间轴上的绝对位置,以及来自文档原有结构中章、节、小节等构成的相对位置,确定概念间的前后序关系。
由于具有较高相关度且不存在SameAs关系的概念对之间可能存在前后序关系,同时也可能存在包含关系,因此需要再进行一次概念间属性继承性概率计算来区分。如果概念间的属性继承性概率未超过设定阈值,说明此概念对之间不存在属性继承性,可将此概念间关系归为包含关系。
如果概念间的属性继承性概率超过设定阈值,说明此概念对间存在属性继承性,可结合上一步骤获得的概念时间轴绝对位置及相对位置上的前后关系,将此概念间关系归为前后序关系。
图4-5 数据转换层自动语义标注的SRAET方法
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。