首页 理论教育 大数据的特征与社会预测:开放的数据源与全局分析

大数据的特征与社会预测:开放的数据源与全局分析

时间:2023-06-10 理论教育 版权反馈
【摘要】:大数据不仅存在于特定的政府机构和企业组织中,而是社会生活生产过程中自动产生存储的。开放公开容易获得的数据源成为大数据时代的基本特征,可以产生巨大的社会影响。(三)重视社会预测预测是大数据的本质特征。在大数据时代,预见行业未来的能力成为企业追求的目标。大数据是信息技术自动采集存储的海量数据,可以进行快速分析处理得到结果。大数据理论上可以把握总体数据,更加重视整体的全部数据。

大数据的特征与社会预测:开放的数据源与全局分析

大数据具有以下五个方面的特征:

(一)体量巨大,种类繁多

互联网搜索的发展、电子商务交易平台的覆盖和微博等社交网站的兴起,产生了无穷无尽的各种数据内容。谷歌前CEO施密特指出从人类文明开始到2003年的近万年时间里人类大约产生5EB数据,而2010年人类每两天就能产生5EB数据。传感、存储和网络等计算机科学领域在不断前行,人们在不同领域采集到的数据量达到了前所未有的程度,收集大量数据的原因在于网络数据可以实现同步实时收集,包括电子商务、传感器智能手机等,还有医疗领域的临床数据和科学研究,如基因组研究将GB级乃至TB级数据输送到数据库。数据总量的增长由于占到85%以上的非结构化数据的增长,增速比结构化数据快大概几十倍。对存储和网络企业的投资者来说这类预测能提升信心,美国咨询公司麦肯锡从个体数据集的大体量定义大数据,指传统数据库软件工具难以采集、存储、分析管理的巨大的数据集。数据类型日益繁多,如视频、文字、图片、符号等各种信息,发掘这些形态各不相同的数据流之间的相关性是大数据的最大优点。比如,供水系统数据与交通状况比较可以发现清晨洗浴和早高峰的时间密切相关,电网运行数据和堵车时间地点有相关性,交通事故率关联睡眠质量等等。

(二)开放公开,容易获得

采集大数据不是为了存储而是为了进行分析。大数据不仅存在于特定的政府机构和企业组织中,而是社会生活生产过程中自动产生存储的。电信公司积累客户的电话沟通记录,电子商务网站整合消费者的各种信息,企业通过挖掘海量数据可以增强自身能力,改善运营服务,提供决策支持,实现商业智能进而为企业带来高额的经济效益回报,发现企业发展的特殊规律。今天在一定规则开放性下,依靠应用程序接口技术和爬虫采集技术,越来越多的商业组织和政府机构开始向社会各界和研究机构提供自身采集储存的各种海量数据源,尤其是美国政府主动提供具有权威的开放数据源。国内也在大量组织收集微博上的海量信息,分析个人特征和属性标签,预测社会舆情电影票房或者商业机会。开放公开容易获得的数据源成为大数据时代的基本特征,可以产生巨大的社会影响。

(三)重视社会预测(www.xing528.com)

预测是大数据的本质特征。在大数据时代,预见行业未来的能力成为企业追求的目标。最近美国 Netflix 公司推出《纸牌屋》,即通过采集其3000万用户的播放动作,包括打开、暂停、快进、倒退等动作,分析其注册用户的几百万次评级与搜索,评价受众对不同电视电影节目给予的不同观点,从导演、演员、题材、情节、类型等各个方面理解公众欣赏节目的习惯,通过挖掘海量数据,获得人们的喜好。该公司细致的采集分析用户数据改变了视频行业的制作方式,用计算方法和逻辑分析替代了以前的过时生产方式,通过大数据能先于受众分析需求,制作节目获得关注。更有意思的案例是商场居然比父亲更早得知未成年女儿的怀孕信息,由于商家依据客户的购物行为进而通过大数据分析预测到其有很大的怀孕可能性。人们极为关注大数据预知社会问题的应用功能,在社会科学领域大数据将发挥越来越突出的巨大作用。[2]

(四)重视发现而非实证

实证研究强调建立理论假设,设定范围随机抽样,定量调查采集数据,收集相关数据,进而证伪或证实理论假设,连续线性的决策,逻辑严密的思维。大数据则重视数据,创造知识,预测前景,探索未知,关注现象,发现机遇。预见未来依靠自下而上的数据收集处理,不依赖理论假设的前提下去发现知识,预知未来,洞察趋势,找到规律。例如,沃尔玛超市经过大数据技术分析海量交易数据,发现周末如果男人买婴儿尿布的同时会顺便买啤酒的独特现象。通常数据挖掘不做刻板假设,具有未知性,但结果有效并且实用,还有的是重视全体忽略抽样。大数据是信息技术自动采集存储的海量数据,可以进行快速分析处理得到结果。随着存储设备成本不断下降,计算机工具效能日趋先进,处理海量数据的能力快速提升,数据挖掘算法持续加速改进,尤其是机器学习神经网络建模技术使抽样调查不再是唯一的方法。大数据理论上可以把握总体数据,更加重视整体的全部数据。

(五)非结构化数据的涌现

数据挖掘重视未知的有效信息和实用知识,越来越多的是非结构化数据,这成为大数据时代的突出特征。现在超过90%的数据都是非结构化数据。社交媒体尤其是微博随时产生的无数数据文本,导致有价值的数据隐藏在海量信息中,大数据分析技术从大量文本中挖掘探析人们的态度和行为,呼应舆情监测的社会需求和企业的重大商机。面对非结构化的大数据采集处理,社会产生了新的需求,技术发生了新的变革,各种 集群、以及非关系型数据库流行,IT 新技术不断涌现。大数据包括数据挖掘、网络挖掘、文本挖掘、机器学习和NLP自然语言处理等IT和商业智能信息技术和决策支持系统及其在社会科学领域中的应用。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈