首页 理论教育 数据界:掌控未来的数据挖掘和应用

数据界:掌控未来的数据挖掘和应用

时间:2023-06-23 理论教育 版权反馈
【摘要】:1)数据不为人类控制数据爆炸式增长,人无法控制它,人们无法控制的还有计算机病毒大量出现和传播,垃圾邮件的泛滥,网络的攻击数据阻塞信息高速公路等。不仅如此,像计算机病毒这类数据还能不断快速大规模地生产新数据。虽然将DNA序列存入网络空间,但在存入网络空间时并不了解DNA序列数据表达了什么?注意,从数据界中获取一个数据集服务于某项工作将是未来的常态性工作。这样的工作在目前称为大数据。

数据界:掌控未来的数据挖掘和应用

人类社会的进步发展是人类不断探索自然(宇宙和生命)的过程,当人们将探索自然界的成果存储在网络空间中的时候,却不知不觉地在网络空间中创造了一个数据界[2,3]。虽然是人生产了数据,并且人还在不断生产数据,但当前的数据已经表现出不为人控制、未知性、多样性和复杂性等自然界特征。

1)数据不为人类控制

数据爆炸式增长,人无法控制它,人们无法控制的还有计算机病毒大量出现和传播,垃圾邮件的泛滥,网络的攻击数据阻塞信息高速公路等。人们都在不断生产数据,不但使用计算机产生数据,而且使用各种电子设备生产数据,例如照相、拍电影、出版报纸等都已经数字化了,这些工作都在生产数据;拍X线片、做CT检查、做各种检验等也都在生产数据;人们出行坐车、上班考勤、购物刷卡等也都在生产数据。不仅如此,像计算机病毒这类数据还能不断快速大规模地生产新数据。这种大规模的随时随地生产数据的情形是任何政府和组织所不能控制的。虽然从个体上来看,其生产数据是有目的的、可以控制的,但是总体上来看,数据的生产是不以人的意志为转移的,是以自然的方式增长的。因此,数据增长、流动已经不为人类所控制。

2)数据的未知性

在网络空间中出现大量未知的数据、未知的数据现象和规律,这是数据科学出现的原因。未知性包括:不知道从互联网上获得的数据是否是正确的和真实的;在两个网站对相同的目标进行搜索访问时得到的结果可能是不一样的,不知道哪个是正确的;也许网络空间中某个数据库早就显示人类将面临能源危机,我们却无法得到这样的知识;我们还不知道数据界有多大?数据界以什么样的速率在增长?

早期使用计算机是将已知的事情交给计算机去完成,将已知的数据存储到计算机中,将已知的算法写成计算机程序。数据、程序和程序执行的结果都是已知的或可预期的。事实上,这期间计算机主要用于帮助人们工作、生活,提高工作效率和生活质量。因此,计算机所做的事情和生产的数据都是清楚的。

随着设备和仪器的数字化进程,各种设备都在生产数据,于是大量人们并不清楚的数据被生产出来且存入网络空间。例如:自从人类基因组计划(human genome project,HGP)开始后,巨量的DNA数据被存储到网络空间中,这些数据是通过DNA测序仪器检测出来的,是各种生命的DNA序列数据。虽然将DNA序列存入网络空间,但在存入网络空间时并不了解DNA序列数据表达了什么?有什么规律?是什么基因片段使得人之间相同或不同,物种进化的基因如何变化?是否有进化或突变……

虽然每个人是将个人已知的事物和事情存储到网络空间中,但是当一个组织、一个城市或一个国家的公民都将他个人工作、生活的事物和事情存储到网络空间中,数据就将反映这个组织、城市或国家整体的状况,包括国民经济和社会发展的各种规律和问题。这些由各种数据的综合所反映的社会经济规律是人类事先不知道的,也即信息化工作将社会经济规律这些未知的东西也存储到了网络空间中。(www.xing528.com)

网络空间自有非现实数据更是未知的。例如,电子游戏创造了一个全新的活动区域,这个区域的所有场景、角色都是虚拟,还有虚拟货币。这些虚拟区域的事物又通过游戏玩家与现实世界联系在一起。因此,游戏世界表现和内在的东西在现实世界中没有,是未知的。

3)数据的多样性和复杂性

随着技术的进步,存储到网络空间中的数据的类别和形式也越来越多。所谓数据的多样性是指数据有各种的类别,如各种语言的、各种行业的、空间的、海洋的、DNA等,也有互联网中/不在互联网中的、公开/非公开的、企业的/政府的等数据;数据的复杂性有两个方面:一是指数据具有各种各样的格式,包括各种专用格式和通用格式;二是指数据之间存在着复杂的关联性

由于网络空间的数据已经表现出不为人控制、未知性、多样性和复杂性等自然界特征,没有哪个人、哪个组织、哪个国家能够控制网络空间数据的增长、流动,这些数据除了表达现实,还有很多和现实无关,所以一个数据界已经形成。

数据界:网络空间中的所有数据构成了数据界,而网络空间是数据的载体不作为数据界的组成部分来看待。

注意,从数据界中获取一个数据集服务于某项工作将是未来的常态性工作。其中的数据获取工作包括收集、清洁、整合、存储与管理等,数据服务包括对数据集进行数据分析、建立业务模型、辅助决策工作。这样的工作在目前称为大数据。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈