首页 理论教育 互联网数据存储与处理

互联网数据存储与处理

时间:2023-06-28 理论教育 版权反馈
【摘要】:互联网数据是指网络空间交互过程中产生的大量数据,包括通信记录及QQ、微信、微博等社交媒体产生的数据,其数据复杂且难以被利用。

互联网数据存储与处理

互联网数据是指网络空间交互过程中产生的大量数据,包括通信记录及QQ、微信、微博等社交媒体产生的数据,其数据复杂且难以被利用。例如,社交网络数据所记录的大部分是用户的当前状态信息,同时还记录着用户的年龄、性别、所在地、教育、职业和兴趣等。互联网数据具有大量化、多样化、快速化等特点。

2.2.2.1 大量化

在信息化时代背景下网络空间数据增长迅猛,数据集合规模已实现从GB到PB的飞跃,互联网数据则需要通过ZB表示。在未来互联网数据的发展中还将实现近50倍的增长,服务器数量也将随之增长,以满足大数据存储。

2.2.2.2 多样化

互联网数据的类型多样化,例如结构化数据、半结构化数据和非结构化数据。互联网数据中的非结构化数据正在飞速增长,据相关调查统计,在2012年年底非结构化数据在网络数据总量中占77%左右。非结构化数据的产生与社交网络以及传感器技术的发展有着直接联系。(www.xing528.com)

2.2.2.3 快速化

互联网数据一般情况下以数据流形式快速产生,且具有动态变化性特征,其时效性要求用户必须准确掌握互联网数据流才能更好地利用这些数据。

互联网是大数据信息的主要来源,能够采集什么样的信息、采集到多少信息及哪些类型的信息,直接影响着大数据应用功能最终效果的发挥。而信息数据采集需要考虑采集量、采集速度、采集范围和采集类型,信息数据采集速度可以达到秒级以上;采集范围涉及微博、论坛、博客、新闻网、电商网站、分类网站等各种网页;而采集类型包括文本、数据、URL、图片、视频、音频等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈