首页 理论教育 多源大数据的融合,《图情大数据》实现成功

多源大数据的融合,《图情大数据》实现成功

时间:2023-08-08 理论教育 版权反馈
【摘要】:多源数据融合又称为多源信息融合或多传感器信息融合。《中国大数据技术与产业发展白皮书》对大数据发展趋势进行预测,总结为:融合、跨界、基础、突破。多源大数据最主要的特征就在与多源、异构、多模。我们正在进入以数据的深度挖掘和融合应用为主要特征的智能化阶段。通过多源数据的融合分析呈现信息应用的类人智能,可以帮助人类更好地认识复杂事物和解决问题。

多源大数据的融合,《图情大数据》实现成功

多源数据融合又称为多源信息融合或多传感器信息融合。不同学科背景对其有着不尽相同的解释。数据融合起先多应用于军事领域,后在通信交通汽车地理空间、情报分析等多个领域也得到了应用与发展。多源跨界数据,使不同形式的数据相互补充,以获得对同一事物或目标更客观、更本质的认识,挖掘其价值,可以为市场的开拓、商业模式的制定、竞争机会的选择提供有力的数据支撑与决策参考。

《中国大数据技术与产业发展白皮书(2014年)》对大数据发展趋势进行预测,总结为:融合、跨界、基础、突破。从中可以看出,融合是最为显著的发展趋势之一。新的渠道、新的载体不断产生新的数据类型,如何应对复杂多变的多源数据,成为大数据环境下一个重要的问题。要想解决这个问题,就需要剖析信息融合的定义与内涵,深入研究多源信息融合的机制与机理,探寻多源信息融合的本质与规律,从而解释多源信息融合的现象,指导多源信息融合的实践。

多源大数据最主要的特征就在与多源、异构、多模。多源表示既可以来自同一领域中不同数据源的数据,也可以表示来自不同的领域不同数据源的数据;异构就是包括结构化的数据和非结构的数据;多模表示多种模式的数据,这种模式的表示可以是不同的数据类别,如文本、语音、影像,也可以表示不同的语言类别。

我们正在进入以数据的深度挖掘和融合应用为主要特征的智能化阶段。在“人机物”三元融合的大背景下,以“万物均需互联、一切皆可编程”为目标,数字化、网络化和智能化呈融合发展新态势。通过多源数据的融合分析呈现信息应用的类人智能,可以帮助人类更好地认识复杂事物和解决问题。

案例:

阅读老建筑

以地图来展现武康路建筑分布,利用GPS/GIS技术自动定位,在用户的游览过程中实时推送附近的建筑,以及和建筑相关的人物、事件,同时还尽可能精准地关联各种类型的文献资源。例如,当用户在手机上打开该网站,进入导航页面,若行至“唐绍仪故居”附近,屏幕上的建筑图标会点亮,提醒用户点击图标,进入唐绍仪故居页面,可阅读或收听两种语言(沪语和普通话)的建筑简介。如需了解更多有关建筑的历史文化记忆,可点击人物、事件、资料页面,获得更丰富的信息。

在武康路网站(http://wkl.library.sh.cn)的唐绍仪的资料页面,集成了书籍、私人档案、历史原照等资源。而这些不同种类的资源数据来源于不同的知识库,通过调用人名规范库(http://names.library.sh.cn)的API得到唐绍仪这个人物实体的HTTP URI,再通过参引该HTTP URI,利用内容协商机制,获得唐绍仪的所有相关文献资源的HTTP URI,这些文献来自Web上不同命名空间的文献知识库,最后通过参引文献的HTTP URI,得到文献的详细信息并显示在应用网站的界面上。

网站支持用户贡献内容,鼓励用户上传历史图片,或拍摄实景照片、撰写文字评论,充实并丰富文化记忆资源,同时支持用户将其分享到社交媒体,与更多的人互动,增强交互性。(www.xing528.com)

网站上还展示了武康路相关的所有建筑、人物、事件、各种文献资源及其相互之间的关联关系。进入“走进历史”页面,可通过点击时间轴来探索武康路在100余年内的变迁,包括新马路的出现、新建筑的落成、著名人物的来去、重要事件的发生等。

上海,类似武康路这样的马路还有很多,它们都能从某个侧面反映上海的历史文化记忆。同样的方法和技术如能推而广之,就能构建更多马路乃至整个城市的文化记忆。这套方法和技术框架的关键在于两点:

一是基础知识库作为数据链接中心的作用。上文以唐绍仪为例,举了人名规范库以人物实体为中心,链接不同的文献知识库中与该人物相关的文献。上海历史地名知识库和上海历史文化事件知识库也能起到同样的作用,从一个地名(马路、街区、政区、城市)链接到所有与之相关的文献,或从一个事件链接到所有与之相关的文献。这种链接的构建需要对文献知识库进行大量的数据清洗和命名实体识别工作。这正是图书馆的规范控制工作,图书馆在长期的编目过程中,形成了大量的名称规范档数据,可以作为命名实体识别的数据基础,也是建立可在Web上提供规范控制服务的人名规范库的基础。图书馆传统的名称规范档应该在互联网时代发挥更大的作用。

二是人、地、时、事、物等实体和文献资源的唯一标识和定位和开放获取。标识符采用可在全网域范围内唯一标识和定位的HTTP URI,并尽量符合Cool URIs的最佳实践,保证其长久性和稳定性,以实现跨网域的数据互联。另外,还需支持内容协商机制,使得HTTP URI能够被参引,即当访问HTTP URI时,能返回所请求格式的结构化数据。以本体建模和RDF编码的数据是开放的、标准规范的、富含语义的,能够被不同的客户端解析,并以不同应用场景所需的方式在前端展示。

上海图书馆由于在过去的数年间,对大量的传统文献数据库进行了重组和改造,满足了上述两个条件,所以能够很方便地连接到“上海年华之从武康路出发”这个应用的网站上来。其他机构如加州大学伯克利分校东亚图书馆的老电影库,华东师范大学图书馆的方志数据库,由于采用了同样的技术框架,也能够很方便地链接过来。而对于那些传统文献数据库,如果为每个文献提供永久性的URL,或者提供开放的API,也可以链接和整合。但这种链接和整合只是停留在文献的层面,无法深入到数据的语义层面。

“上海年华之从武康路出发”在2018年4月23日国际读书日的读者“阅读与行走”活动中,帮助读者在游览的过程中,更方便更深入地了解武康路的文化记忆,了解无声的建筑中来过的人、发生过的事。同时也将文化记忆机构的资源从被动地等待读者到图书馆网站上浏览,变成主动地嵌入读者的现实生活之中,在某种程度上拓宽了文化记忆资源的利用范围。

通过“上海年华之从武康路出发”项目的开发,在原有的数据基础设施的基础上增加了更多的人名、地名、事件,同时也增加了上海历史文化建筑知识库和上海物质文化遗产知识库,将无形的文化记忆资源和有形的物质文化遗产建立关联,使得城市中的某些特定的空间成为历史和现实的一个结合点。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈