首页 理论教育 大数据概述-信息技术基础

大数据概述-信息技术基础

时间:2023-11-23 理论教育 版权反馈
【摘要】:信息爆炸式的增长,使数据的产生不受时间、地点的限制,创造出了“大数据”这个概念。21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。大数据系统需要满足以下三个特性。

大数据概述-信息技术基础

计算和数据是信息产业不变的主题,半个世纪以来,在信息和网络技术迅速发展的推动下,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸式的增长,使数据的产生不受时间、地点的限制,创造出了“大数据”这个概念。如今这个概念几乎应用到了所有人类智力与发展的领域中。

21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。

互联网(社交、搜索电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融银行股市保险)、电信(通话、短信)都在疯狂产生着数据。

新的时代,人们从信息的被动接受者变成了主动创造者:

全球每秒钟发送290万封电子邮件,如果一分钟读一篇,足够一个人昼夜不息地读5.5年。

每天会有2.88万小时的视频上传到Youtube,足够一个人昼夜不息地观看3.3年。

推特上每天发布5 000万条消息,假设10 s浏览一条信息,这些消息足够一个人昼夜不息地浏览16年。

每天亚马逊上产生630万笔订单。

每个月网民在Facebook上要花费7 000亿分钟,被移动互联网使用者发送和接收的数据高达1.3 EB。

Google上每天需要处理24 PB的数据。

这些由信息产生的数据远远超越了目前人力所能处理的范畴,大数据时代已经来临。

1.什么是大数据

维基百科将大数据描述为:大数据是现有数据库管理工具和传统数据处理应用很难处理的大型、复杂的数据集。大数据的挑战包括采集、存储、搜索、共享、传输、分析和可视化等。

大数据的“大”是一个动态的概念,以前10 GB的数据是个天文数字;而现在,在地球、物理、基因、空间科学等领域,TB级的数据集已经很普遍。大数据系统需要满足以下三个特性。

①规模性(Volume):需要采集、处理、传输的数据容量大。

②多样性(Variety):数据的种类多、复杂性高。

高速性(Velocity):数据需要频繁地采集、处理并输出。

2.数据的来源

大数据的数据来源很多,主要有管理信息系统、网络信息系统、物联网系统、科学实验系统等;其数据类型包括结构化数据、半结构化数据和非结构化数据。

管理信息系统:企业内部使用的信息系统,包括办公自动化系统、业务管理系统等,是常见的数据产生方式。管理信息系统主要通过用户输入和系统的二次加工的方式生成数据,其产生的数据大多为结构化数据,存储在数据库中。(www.xing528.com)

②网络信息系统:基于网络运行的信息系统是大数据产生的重要方式,电子商务系统、社交网络、社会媒体、搜索引擎等都是常见的网络信息系统,网络信息系统产生的大数据多为半结构化或无结构化的数据。网络信息系统与管理信息系统的区别在于管理信息系统是内部使用的,不接入外部的公共网络。

③物联网系统:通过传感器获取外界的物理、化学、生物等数据信息。

④科学实验系统:主要用于学术科学研究,其环境是预先设定的,数据既可以由真实实验产生,也可以是通过模拟方式获取的。

3.生产数据的三个阶段

①被动式生成数据:数据库技术使得数据的保存和管理变得简单,业务系统在运行时产生的数据直接保存数据库中。这个时候数据的产生是被动的,数据是随着业务系统的运行产生的。

②主动式生成数据:互联网的诞生尤其是Web 2.0、移动互联网的发展大大加速了数据的产生,人们可以随时随地通过手机等移动终端生成数据,人们开始主动地生成数据。

③感知式生成数据:感知技术尤其是物联网的发展促进了数据生成方式发生了根本性的变化,遍布在城市各个角落的摄像头等数据采集设备源源不断地自动采集、生成数据。

4.大数据的特点

①数据产生方式:在大数据时代,数据的产生方式发生了巨大的变化,数据的采集方式由以往的被动采集数据转变为主动生成数据。

②数据采集密度:以往进行数据采集时的采样密度较低,获得的采样数据有限;在大数据时代,有了大数据处理平台的支撑,可以对需要分析的事件的数据进行更加密集的采样,从而精确地获取事件的全局数据。

③数据源:以往多从各个单一的数据源获取数据,获取的数据较为孤立,不同数据源之间的数据整合难度较大。在大数据时代,可以通过分布式计算分布式文件系统分布式数据库等技术对多个数据源获取的数据进行整合处理。

④数据处理方式:以往对数据的处理大多采用离线处理的方式,对已经生成的数据集中进行分析处理,不对实时产生的数据进行分析。在大数据时代,可以根据应用的实际需求对数据采取灵活的处理方式。对于较大的数据源、响应时间要求低的应用,可以采取批处理的方式进行集中计算;对于响应时间要求高的实时数据处理,则采用流处理的方式进行实时计算,并且可以通过对历史数据的分析进行预测分析。

⑤大数据需要处理的数据大小通常达到PB(1 024 TB)或EB(1 024 PB)级。

⑥数据的类型多种多样,包括结构化数据、半结构化数据和非结构化数据。

巨大的数据量和种类繁多的数据类型给大数据系统的存储和计算带来很大挑战,单节点的存储容量和计算能力成为瓶颈。分布式系统是对大数据进行处理的基本方法,分布式系统将数据切分后存储到多个节点上,并在多个节点上发起计算,解决单节点的存储和计算瓶颈。

5.大数据的应用领域

大数据在社会生活的各个领域得到广泛的应用,不同领域的大数据应用具有不同的特点,其对响应时间、系统稳定性、计算精确性的要求各不相同。

海量的数据本身很难直接使用,只有通过处理的数据才能真正成为有用的数据,因此,云计算时代数据和计算两大主题可以进一步明确为数据和针对数据的计算,计算可以使海量的数据成为有用的信息,进而处理成知识。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈