首页 理论教育 免费的知识库-短文本表示及应用

免费的知识库-短文本表示及应用

时间:2023-11-18 理论教育 版权反馈
【摘要】:Freebase知识库是美国谷歌公司于2005年基于Wikipedia数据资源推出的知识图谱,其定位是大规模开放结构数据库。Freebase基于RDF三元组模型,底层采用图数据库进行存储。Freebase的基础模型包括实体、类型、域、属性等概念。基于Freebase架构的特点,可以把数据库想象成由一个个数据节点构成的庞大的数据云图。为了对如此多的数据进行表示和组织,Freebase使用了一个轻量级类型系统。也就是说,在Freebase数据库中,对应现实世界中Johnny Depp这个人的只有唯一一个节点。

免费的知识库-短文本表示及应用

Freebase知识库(简称“Freebase”)是美国谷歌公司于2005年基于Wikipedia数据资源推出的知识图谱,其定位是大规模开放结构数据库。Freebase主要采用社区成员协作方式构建,其主要数据来源包括Wikipedia(维基百科)、NNDB(世界名人数据库)、MusicBrainz(开放音乐数据库)以及社区用户的贡献等。Freebase基于RDF三元组模型,底层采用图数据库进行存储。Freebase知识库包含约6800万个实体和约10亿个关系,目前被学术界和工业界广泛使用,很多自然语言处理(特别是知识工程领域)任务的基线数据集基于Freebase知识库。

Freebase的Graphd(后台数据库)以节点和节点间关系的图状结构来组织数据,这与传统关系数据库以表的方式组织数据完全不同[65]。Freebase服务器与Graphd紧密绑定,通过二进制数据存储块来储存图节点和节点关系,以哈希表的方式存储组织数据,在用户上传、下载数据时起到临时数据缓冲作用,在对数据进行检验处理后将其存储到Graphd中。Graphd的图结构由一系列节点和反映节点间关系的有向连线组成。图中的每个节点都记录与自身相关的信息,数据库中的所有相关数据都以记录节点间关系的方式组织数据并存储。Graphd中定义了一些必要属性作为架构中最基础的部分,如“/type/object/name”属性支持节点定义可读性较强的名称。Garphd的图是有向图,节点关系的方向从源节点指向目标节点。虽然关系是有向的,但执行数据查询时,Graphd可以向前和向后遍历所有有向连线来获取查询结果。因为Graphd会按不同方向遍历连线,所以可以将节点间连线看作具有双向性。在属性定义时,可以将一个方向的属性定义为主属性,将反方向上的属性定义为逆属性,这两个属性也称为互惠属性。在Graphd中,可以通过“\type/property/reverse_property”属性来标注主属性和逆属性,从而实现关系的双向遍历。

Freebase的基础模型包括实体、类型、域、属性等概念。其中,每个实体可以属于多个类型;域是对类型的分组,便于Schema管理;每个类型可以设置多个属性,其值默认可以有多个。属性值类型既可以是基本类型(如整型、文本等),也可以是自定义类型(如“球队”“父母”等),这种情况称为组合值类型。Freebase使用MID代表实体编号,在不考虑实体归并的情况下,实体和MID是一一对应的;当考虑实体归并合并时,多个MID可能指代一个实体,但只有一个MID为主,其他MID通过一个特殊的属性指向这个MID。在Freebase中,一个实体可以有多个值,每个值都属于一个命名空间。例如,“/en/yao_ming”的命名空间为“/en”,“/wikipedia/zh-cn_title/姚明”的命名空间为“/wikipedia/ zh-cn_title”。对于平台基础模型的实体(域、类型、属性等),Freebase会选择一个值作为该实体的MID。Freebase对属性的取值范围施加约束,如类型约束(整型、文本、浮点型等)、条件约束(是否单值、是否去重、主属性、逆属性等)。例如,“Obama”的MID是“m.02mjmr”,由于在“m.02mjmr”实体的相关信息中包含“人物”属性,因此“Obama”属于“人物”类别;同时,更为细致地划分“m.02mjmr”实体还属于“政府”类别下的“美国总统”类,其“总统职位数”为“44”;此外,知识库中还存储着用三种语言(中文、英文、西班牙文)对“Obama”实体的描述,介绍其主要信息,其丰富的属性信息可以应用到诸多任务之中。相关研究着重利用其中的英文描述信息作为对实体进行消歧的重要特征。(www.xing528.com)

基于Freebase架构的特点,可以把数据库想象成由一个个数据节点构成的庞大的数据云图。为了对如此多的数据进行表示和组织,Freebase使用了一个轻量级类型系统(Type System)。这套分类系统是一个结构化机制和约定的松散集,而不是实体和描述固定的系统。分类系统支持协作创建数据分类和属性,不会将世界上所有知识固定在条框之内。用户对同一知识不同的理解和观点可以通过为数据条目添加不同的分类和属性来表示。例如,对于“Johnny Depp”,可以为其添加多个类型(如Person、Acotr等)来表示其不同的身份。不同分类的元数据定义了各自的属性(Porperty),通过众多属性值来全面揭示“Johnny Depp”的信息。需要注意的是,“Johnny Depp”作为一个数据条目(Topic)在Freebase系统里是唯一的,表示且仅表示现实世界中唯一的一个实体或概念。也就是说,在Freebase数据库中,对应现实世界中Johnny Depp这个人的只有唯一一个节点。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈