首页 理论教育 数据的概念与分类在大数据时代

数据的概念与分类在大数据时代

时间:2023-07-24 理论教育 版权反馈
【摘要】:(一)数据的概念在大数据时代,数据的种类繁多,根据分类的标准不同,数据的构成也不尽相同。数据模型是现实世界数据特征的抽象,用于描述一组数据的概念和定义。换言之,在当事人数据权利受侵害之后或之前,国家即有保护当事人数据免受侵害的责任与义务。个人数据与个人信息范围不同。数据中间商的主要任务就是对数据进行分析加工,进而获取利益。

数据的概念与分类在大数据时代

(一)数据的概念

在大数据时代,数据的种类繁多,根据分类的标准不同,数据的构成也不尽相同。

根据大数据结构等级,可将大数据分为结构化、半结构化和非结构化数据。结构化数据是包含在关系型数据库电子表格中的数据,可以用二维表结构来表达,通常是用数据从属的字段和每个字段类型来描述,例如,财务系统里的数据、企业ERP里的数据等。非结构化数据是不方便用二维逻辑表表达,无预先定义的数据模型或没有按预先规定组织的数据,其表现通常以文本为主,也可以是日期、数字和facts(是个体或一个类成员属性值),例如,照片、图像等形式展示的数据。非结构化数据是先有数据,再有结构,而结构化数据是先有结构再有数据。半结构化数据介于结构化数据和非结构化数据之间,是缺乏由底层数据结构模型规定的严格结构的结构化数据,不经过进一步的处理难以得到完整的语义,例如,HTML文档,它是一种自描述,没有明显的区分数据内容和数据结构。

根据数据被加工的程度进行分类,可以分为源数据、数据产品交易和数据模型交易。源数据又称为原始数据或者是原子数据,是指仅仅通过收集而未经过其他智力劳动进行加工的原始资料或者具体数据集,它强调的是物理上存在于终端用户使用而产生的数据。源数据的获得不经过智力劳动的加工,因此它不属于知识产权的保护范围,仅仅是一般财产性权利。数据产品是指将原始数据进行智力劳动加工后得到的数据,此时的数据已经被甄别处理,变成客户想要的信息,具有信息交易的特点,受到我国关于知识产权保护法律法规的保护。数据模型是现实世界数据特征的抽象,用于描述一组数据的概念和定义。数据模型由三个因素构成,即数据结构、数据操作和数据约束。其中数据结构是对数据类型、内容、性质和数据联系的描述;数据操作是对系统动态的描述,包括数据插入、操作规则建立等;数据约束是一组完整的规则的集合,用限定的条件以确保数据的准确性。对源数据、数据产品和数据模型三个概念的划分,相当于对三个世界的划分,分别是现实世界(源数据)、信息世界(数据产品)和计算机世界(数据模型)。这是数据加工逐渐转换的一个过程。

根据数据收集的数据来源分类,可将数据分为公共数据源、社会数据源、商业数据源和个人数据源。公共数据源是指政府数据和公用数据。政府数据是由政府或其控制的实体产生或委托产生的数据;公用数据是来自公用事业单位的数据,主要包括档案馆和图书馆的数据、天气数据等。社会数据源是被社会所公开的各种数据,如互联网搜索数据、新闻公开报道数据。商业数据源是在合法条件下,通过商业渠道购买的或者相互交换分享的数据。个人数据源是指被个人允许收集的数据。

(二)数据与信息的区分

在计算机科学中,“数据”一词,泛指任何可利用计算机处理的材料,包含各种文字、数字及图表等。马费成等提出:“数据是载荷或记录信息的按照一定规则排列组合的物理符号。”中国科学院提出:“数据是指任何以数字化形式存储的内容,包括文本、数字、图像、视频、音频、软件算法、动态模拟、模型等。”

“信息”一词,泛指任何现在或未来能让人或其他生物的感官所察觉的事实或想法。即所知是信息的内容,信息是所知的形式。信息并不完全等于所知,它是所知媒介上的投影,信息承载着所知,可由一般人感官察觉。在实践中,一般人应用的是信息的内容,非其形式。黄鼎成提出:“信息是人们认识事物获取知识的唯一方式。”贾善刚提出:“信息是指应用文字、数据、信号、声音等形式通过不同方式的传递和处理,以表现各种相互关系的客观事物在运动变化中所具有的特征内容的总称。”

有观点认为信息是经过处理的数据,而数据是片段、零星、不尽可靠的消息。实际上数据与信息是两个相对的概念,亦即只有被人认定具有意义时,数据才能成为信息。信息与数据的关系,体现于数据经过处理产生有价值的信息,提供制定决策的参考,决策的结果便是一连串的行动,而行动的实际情况,又借着回馈的数据输入信息系统中,提供下一次决策所需的信息。

有学者认为,数据是指一定事实或者状态的存在或者记录,例如未经处理的原始数值或文字即属之,其性质上属于客观、静态存在的问题;信息则系基于特定目的,对数据加以整理,甚至建立档案,性质上属于主观且需经动态数据处理的问题。[1]

信息与数据的区别,宏观上并无实质意义。但从微观上,以数据保护为例,其核心并非保护当事人数据权利受侵害的救济,而是保护当事人的数据免受侵害。换言之,在当事人数据权利受侵害之后或之前,国家即有保护当事人数据免受侵害的责任与义务。此外,个人数据具有确定性,而个人信息往往因收集者的主观目的不同而有所差别。个人数据与个人信息范围不同。对于个人数据的立法保护是为了保护以个人数据形式存在的个人信息,而非全部的个人信息;且个人信息因收集者的目的不同而有所差别,而个人数据则具有确定性。(www.xing528.com)

(三)数据的分类

不同的标准对数据的分类不同,但所涉及的主体是基本一致的,主要包括网络用户、数据中间商和政府主管部门。

1.网络用户

大数据时代的广泛性使得各类主体都可以参与其中,网络空间法律主体最重要的就是用户,网络用户是指“在科研、教学、生产、管理、生活及其他活动中需要和利用网络获取信息改造自身知识结构的个体和群体”。网络用户是数据的所有者和生成者,同时也可以根据数据被“识别”到。在大数据时代,网络用户不仅仅是数据的生成者,他们同时具有多重身份,也是数据的传递者和接受者。具体来说,网络用户可以分为个人、法人和其他组织,自然人作为最主要的网络用户,即普通网民,现如今自然人的数据利益受到的侵害最为严重,法人和其他组织的商业秘密或其他信息在大数据时代也同样被置于危险之中。

2.数据中间商

从字面上看,数据中间商就是夹在数据提供方和数据购买方的中间者,他们将大数据产业链的所有环节连在一起,但是本身却并不具有创造数据的能力,简而言之,数据中间商将从各地收集到的数据进行整合,提取其中有价值的数据,再把这种“有用”的数据提供给其他公司,较具代表性的有数据加工公司和数据分析公司。数据中间商的主要任务就是对数据进行分析加工,进而获取利益。例如,美国西雅图的著名交通数据处理公司Indx就是典型的数据中间商,该公司通过其建立的免费智能手机应用程序,掌握了美洲和欧洲将近1亿辆汽车的实时交通数据,将这些数据与历史交通数据进行对比,再结合天气和当地社会环境来预测某地的交通状况,他们分析出来的数据会被同步到其生产汽车导航系统中,同时也会被政府部门和社会管理组织所采纳。

由此可见,数据中间商挖掘出了数据的价值,是大数据链条上的重要一环,但是当前数据的滥用使得“中间商”掌握的数据成了兜售平台,有了泄露信息的源头就使得中间商可以轻易地获取数据后再向各地批发、零售数据,他们掌握海量数据,一些非法公司通过此平台买入数据后从事下游违法犯罪活动,从而形成整个产业链。一些犯罪分子利用购买的数据(包括个人信息和定位)进行非法讨债诈骗,甚至是进行黑恶犯罪。

3.政府主管部门

政府部门作为数据管理者,一方面基于公共管理的需要掌握着大量居民和社会组织的数据,因此在使用这些数据时应遵循合法合理的原则,维护网络用户的合法权益,防止数据的泄露。另一方面其作为社会管理者,需要对整个互联网大环境进行监管,监督整个大数据产业链的运转。对于政府主管部门的范围,各国(地区)立法上仍有争议。信息管理者可以从性质上划分为“公的部门”和“私的部门”两类。其中各国(地区)立法对“公的部门”的定义存在不同。对于“私的部门”的界定则较为统一,包括所有处理个人数据的法人和根据私法设立的自然人、法人和其他组织,以收集个人数据为要件。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈