首页 理论教育 数据矿床分析:挖掘珍贵信息

数据矿床分析:挖掘珍贵信息

时间:2023-06-23 理论教育 版权反馈
【摘要】:数据集规模的大小。数据质量的好坏将直接决定是否能够开发出价值。高质量的数据应该是准确的、一致性的、完整的和及时可用的数据。如果一个数据矿床的数据质量不好,将给数据开采带来很大困难。对于数据拥有者,在形成数据资源的过程中,严格进行数据质量管控,就能够形成数据质量高的数据矿床,提高拥有的数据资产。

数据矿床分析:挖掘珍贵信息

数据矿床:有研究、开发和利用价值的数据集称为数据矿床。对于开发价值高,且易于开发的数据矿床,称为数据富矿;对于开发价值低,且不易于开发的数据矿床,称为数据贫矿。

确定一个数据矿床要考虑下列基本要素:

(1)有价值的数据规律在待开发的数据中所占的比例要达到最低可发品位,不同数据规律的可开发品位是不同的。例如,关联规则的支持度要足够大;聚类的簇要包含足够多的数据对象等。

(2)数据总体的分布特性和数据集的逻辑结构,包括数据分布清晰程度和数据逻辑结构中是否有难以处理的数据类型(如非结构化数据类型)。(www.xing528.com)

(3)数据集规模的大小。数据集的规模通常决定了该数据资源开发所需要的投入,包括大型存储设备、大型计算机以及相应的机房等外围设备的投入。

(4)数据质量的好坏。数据质量的好坏将直接决定是否能够开发出价值。高质量的数据应该是准确的、一致性的、完整的和及时可用的数据。如果一个数据矿床的数据质量不好,将给数据开采带来很大困难。对于数据拥有者,在形成数据资源的过程中,严格进行数据质量管控,就能够形成数据质量高的数据矿床,提高拥有的数据资产。数据质量管理是指对数据生产、存储、流通过程中可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

(5)从数据集中获得有价值的数据规律的全部费用。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈