首页 理论教育 大数据的十种特征,全:数据的表征全面

大数据的十种特征,全:数据的表征全面

时间:2023-06-27 理论教育 版权反馈
【摘要】:大数据不仅仅是指数据大,还指它具有多种特征。国内有专家总结出大数据具有“全、大、杂、多、快、久、活、密、稀、联”十种特征。全应该是最能体现大数据与传统数据差异的特征。

大数据的十种特征,全:数据的表征全面

大数据不仅仅是指数据大,还指它具有多种特征。国外有专家总结出大数据具有“4V”特征,包括数据量大(Volume)、类型繁多(Variety)、增长和处理速度快(Velocity)、价值大而价值密度低(Value)。国内有专家总结出大数据具有“全、大、杂、多、快、久、活、密、稀、联”十种特征。

(一)全:数据的表征全面

针对一个具体的客观对象,可以通过不同来源的数据对其进行表征和描述。例如,要了解或掌握一个人的行为或一个企业的运行状况,可以通过获取与之相关的各种数据对其进行描述和画像。对一个人的行为来说,要获取包括姓名、性别、年龄、住址、联系方式等基本数据,还要包括与之相关联的社会关系数据,以及其和外界交往、交易的行为数据等,这样才能更加全面了解这个人的行为。对于一个企业的经营状况,不仅要获取包括名称、法人、工商登记信息、地址等基本数据,还要了解其关联企业数据,以及税务、社保、经营、水电气、征信、股权融资等数据,从而全面了解企业的状况。当然,这里的全只是相对的。

全应该是最能体现大数据与传统数据差异的特征。正是因为大数据的全,才使得大数据表现出数量大、门类多、处理难度大、时间跨度长等一系列特征,因而需要用新的思维模式、基础设施和技术方法来处理大数据。

(二)大:数据的量巨大

数据大小的最基本单位是B,是字节(Byte)的缩写。1个字节B的数据大小由8个二进制位组成,如:00000001、11111111等。

一般,我们用不同的符号如K、M、G、T、P、E、Z、Y来表示数据量的大小。从目前的技术水平,我们一般把T以上表达的数据量称之为巨大。

表1 数据大小的表示符号及示例

2012年,Facebook宣布用户经过该平台每天发布约25亿条文字消息,上传约3亿张照片,每天新产生的数据量达到500TB;2017年,微信每天9亿人次登录,发送380亿条文字消息,61亿语音次数,2亿视频通话,10多亿张图片。

根据国际数据公司(International Data Corporation,简称IDC)估计,到2020年,全球数据总量预计达到44ZB。届时,中国数据量将达到8.06ZB,约占全球数据总量的18%,中国将成为名列前茅的数据资源大国和全球数据中心。巨大的数据量就需要匹配更强大的计算能力。

(三)杂:数据的格式、形式、结构、类型复杂

数据需要通过多种方式承载和表达整个世界的各种状态和各种信息,也需要承载和记录人类有史以来的各种经验、知识、文化、思想和智慧,这就造成了数据格式、形式、结构、类型的多样性和复杂性。例如,我们在电脑和手机上读到的文本、听到的音乐、看到的图片、欣赏的视频,以及通过各种传感器感知到的温度、湿度、气压、PM2.5等。数据繁杂的特点也同时增加了数据存储、传输、管理、处理、分析、表达、显示的技术难度。

(四)多:数据来源多样

数据来源多样,有的来自物理世界,比如,通过传感器、科学观测获取的生物数据、脑科学数据、气象数据、天文观测数据、卫星遥感数据等;有的来自人类活动,比如社交网络、互联网金融与经济活动产生的数据等。数据来源多样客观上就需要我们对数据进行综合处理和分析,以把握事件全貌,掌握事件进展状态,判断各种变化情况,为决策和采取处置行动提供科学依据。(www.xing528.com)

(五)快:数据产生快速,实时动态

许多场合下数据是实时、动态产生的,反映了不断变化的情况。这就需要有技术和机制,不断采集这些数据,并能够进行快速地处理和分析,以提供决策支持。例如,对于应急管理和指挥来说,当出现突发事件时,指挥中心就需要及时获取来自现场和来自各相关部门的各种数据,实时掌握快速变化的情况,科学快速地决策,以应对复杂多变的情况。

(六)久:数据时间跨度长久

大数据具有时间跨度长的特点。这是因为,数据需要经过较长时间的积累才能发现事物长期的变化规律。例如,全球经济危机爆发周期约为10年。如果收集的数据时间跨度太短,是不太可能从数据中发现这样的周期性规律的。同时,随着技术发展与时代进步,时间跨度长久的数据可能挖掘出新的价值。过去看似没有用处的数据,在某些新的应用场景下,经过重新挖掘分析,往往能发掘出重要的价值。

(七)活:数据能够支持各类鲜活的应用

数据是鲜活的、实时在线的,可以支持各种实时的应用场景。例如,高德百度导航地图,前端不断采集车辆实时路况数据,通过后台实时在线处理,再以实时路况地图方式呈现到前端,从而使道路交通参与者实时发现拥堵路段,优化出行方案,实现车辆分流,提高道路交通效率

(八)密:数据的间隔密集

数据的密,指的是数据的时间采集密度和数据的空间采集密度。数据的时空采集密度越密,数据自身的精度越高。大数据的时空间隔越密,表达事物的能力就越强,精度就越高,数据的量也就越大,需要的数据处理能力也要越强。例如,卫星导航定位数据采集得越密,物体运动轨迹就越精确。环境水文等的监测传感器布点越密,其分辨能力就越强。

(九)稀:数据价值稀疏

大数据一般都具有总量价值高,但价值密度低的特征。要想提取出数据的价值,需要做大量的采集和分析工作,挖掘出有价值的信息。例如,监控视频数据总量很大,但某些应用场景下有价值的数据也许只涉及1—2秒的视频信息,这就需要用各种手段把它挖掘和提取出来。

(十)联:数据之间有关联性

万事万物之间都有着某种联系,看似分离的数据之间,也可能存在着相关性。正如舍恩·伯格所说,大数据关注相关关系更胜于因果关系

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈