首页 理论教育 水文现代化与新技术:数据挖掘技术

水文现代化与新技术:数据挖掘技术

时间:2023-08-25 理论教育 版权反馈
【摘要】:为了解决这个问题,数据挖掘和知识发现技术便应运而生。因此,随着数据仓库与数据挖掘的协调发展,数据仓库必然成为数据挖掘的最佳环境。1)空间数据库。关联分析就是从大量的数据中发现各项目与集合之间有趣的联系、相关关系或因果结构。关联分析的目的是找出数据库中隐藏的关联规则。

水文现代化与新技术:数据挖掘技术

随着信息采集和存储技术的发展,数据资源日益丰富。但是,数据资源中蕴藏的知识却未能充分的挖掘和利用,形成了“数据丰富而知识贫乏”的局面。为了解决这个问题,数据挖掘和知识发现技术便应运而生。

数据挖掘,就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,利用一定的挖掘算法或工具,挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则的过程。数据挖掘的基础是原始数据,原始数据是知识的源泉。

大量水文观测所获得的原始数据十分宝贵,是水文知识的源泉,通过对原始数据的挖掘或知识发现,可以从中获取大量的水文知识。对原始水文观测数据的挖掘,与传统的水文资料整编有相同的部分,也有很大的区别,最主要的区别在于数据挖掘完全面向特定应用。数据挖掘不但要查询、加工数据,还要对数据进行专门目的的统计、综合、分析、推理,并着眼于微观、中观尺度,甚至宏观尺度。

1.数据挖掘的对象

数据挖掘可以针对任何类型的数据库进行,既包括传统的关系数据库,也包括非数据库组织的文本数据源、Web数据源以及复杂的多媒体数据源等。

(1)关系数据库。关系数据库因为具有坚实的数据基础、统一的组织结构、完整的规范化理论、一体化的查询语言等优点,成为当前数据挖掘量重要、最流行,也是信息最丰富的数据源,并且也是人们对数据挖掘研究的主要形式之一。

(2)数据仓库。数据仓库是数据库技术发展的高级阶段,它是面向主题的、集成的、内容相对稳定的、随时间变化的数据集合,可以用来支持管理决策的制定过程。数据仓库系统允许将各种应用系统、多个数据库集成在一起,为统一的历史数据分析提供坚实的平台。

数据挖掘需要有良好的数据组织和“纯净”的数据,数据的质量直接影响到数据挖掘的效果,而数据仓库的特点恰恰最符合数据挖掘的要求,它从各类数据源中抓取数据,经过清洗、集成、选择、转换等处理,为数据挖掘所需要的高质量数据提供了保证。可以说,数据挖掘为数据仓库提供了有效的分析处理手段,数据仓库为数据挖掘准备了良好的数据源。因此,随着数据仓库与数据挖掘的协调发展,数据仓库必然成为数据挖掘的最佳环境

(3)文本数据库。文本数据库所记载的内容均为文字,这些文字并不是简单的关键词,而是长句子、段落甚至全文,文本数据库多数为非结构化的,也有些是半结构化的,如HTML、E-mail等。Web网页也是文本信息,把众多的Web网页组成数据库就是最大的文本数据库。如果文本数据具有良好的结构,可以使用关系数据库来实现。

(4)复杂类型数据库。复杂类型的数据库是指非单纯文本的数据库或能够表示动态的序列数据的数据库,主要有如下几类。

1)空间数据库。主要指存储空间信息的数据库,其中数据可能以栅格形式提供,也可能用矢量图形数据表示。对空间数据库的挖掘可以为水工程规划建设、生态规划等提供决策支持。

2)时序数据库。主要用于存放与时间相关的数据,它可用来反映随时间变化的即时数据或不同时间发生的不同事件。对时序数据的挖掘可以发现事件的发展趋势、事物的演变过程和隐藏特征,这些信息将对事件的计划、决策和预警是非常有用的。

3)多媒体数据库。用于存放图像、声音和视频信息的数据库。由于多媒体技术的发展,以及相关研究(如可视化信息检索虚拟现实技术)的成就,多媒体数据库也逐渐普及,并应用于许多重要研究领域。目前,多媒体数据的挖掘主要放在对图像数据的检索与匹配上,随着研究的深入将会拓展到对声音、视频信息的挖掘处理。

2.数据挖掘的基本功能

数据挖掘的目标是从数据库中发现隐含的、有意义的知识。数据挖掘的功能一般可以分为两大类:描述和预测。描述类挖掘的任务是刻画数据库中数据的一般特性。预测类挖掘的任务是在当前数据上进行推断,以此进行预测。了解数据挖掘的分类,理解被挖掘的对象,并在此基础上对挖掘对象按挖掘功能进行分类,有助于我们根据需求选择合适的挖掘算法或挖掘工具,准确地分析问题和解决问题。

(1)概念描述。概念描述就是通过对某类对象关联数据的汇总、分析和比较,对此类对象的内涵进行描述,并概括这类对象的有关特征。传统的也是最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值,或者用直方图、饼状图等图形的方式表示。而数据挖掘中的概念描述主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。由于数据库中的数据或对象所包含的信息总是最原始、基本的信息,人们有时希望能从较高层次的视图上处理或浏览数据,因此,需要对数据进行不同层次上的泛化以适应各种查询要求。

概念描述可以通过数据特征化或数据区分的方法实现。前者描述某类对象的共同特征,生成一个类的特征性描述,该描述只涉及该类对象中所有个体的共性。其输出可以采用多种形式,包括饼状图、柱状图、曲线、多维数据立方体、含交叉表的多维表,且描述结果也可以用概化关系或规则形式表示。后者描述异类对象之间的区别,将目标类对象的一般特性与一个或多个对比类对象的一般特性比较,而这种比较必须是在具备可比性的两个或多个类之间进行的。数据区分的输出类似于数据特征化,但它应该包括比较度量,帮助区分目标类和对比类。

(2)关联分析。关联分析就是从大量的数据中发现各项目与集合之间有趣的联系、相关关系或因果结构。数据关联是数据库中存在的一类重要的知识。

若两个或多个变量的取值之间存在某种规律性,则称之为关联。关联可分为简单关联、时序关联、因果关联等。关联分析的目的是找出数据库中隐藏的关联规则。

(3)分类。分类在数据挖掘中是一项非常重要的任务,分类的目的是找出一组能够描述数据集合典型特征的模型或函数,以便能够识别未知数据的归属或类别。分类模型能够通过数据挖掘分类算法从一组训练样本数据(其类别归属已知)中学习获得。分类和回归都可用于预测。预测的目的是从利用历史数据记录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。和回归方法不同的是,分类的输出是离散的类别值,而回归的输出则是连续数值。

数据分类实际上就是从数据库对象中发现共性,并将数据对象分成不同类别的一个过程。分类的目标首先是对训练数据进行分析,使用数据的某些特征属性,给出每个类的准确描述,即分类规则,然后使用这些描述,对数据库中的其他数据进行分类。实际上,分类过程包含两步:第一步,建立一个模型,描述指定的数据类集;第二步,使用模型进行分类。模型的建立是基于对训练数据集的分析。模型可以用多种形式表示,如分类规则、判定树、数学公式或神经网络等。

分类通常和预测联系起来,这是因为分类可以用来预测数据对象的类标记,也可以用来预测某些空缺的或不知道的数据值,当被预测的值是数值数据时,通常称之为预测。

分类挖掘主要的技术有统计方法、机器学习方法和神经网络方法等。(www.xing528.com)

(4)聚类。聚类是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。聚类与分类分析方法不同,聚类分析是在没有给定划分类的情况下(如没有预制的分类表、没有预定的类目),根据信息相似度进行信息聚集的一种方法。所以,聚类分析的输入数据集是一组未标记的对象。聚类的目的是根据一定的规则,合理地进行分组或聚类,并用显式或隐式的方法描述不同的类别。由于分析可以采用不同的算法,所以对于相同的数据集合可能有不同的划分。在机器学习中,聚类是无指导学习的一个例子,分类是有指导学习的一个例子,两者所采用的方法相差甚远,并且聚类的时间复杂度要比分类大得多。

聚类分析技术包括统计、机器学习、神经网络等方法。在统计方法中,聚类被称为聚类分析。

(5)孤立点分析。数据库中可能包括一些数据对象,它们与数据的一般行为或模型不一致。这些数据对象被称作孤立点。大部分数据挖掘方法将孤立点视为噪声或异常而丢弃。然而,在一些应用中,罕见的事件可能比正常出现的事件更有趣,需要进行孤立点数据分析。

孤立点可以通过统计试验检测。假定一个数据分布或概率模型,并使用距离度量,如某个对象到所有聚类的距离均很大,则这个对象被视为孤立点。此外,也可以不用统计或距离度量,而利用偏差检测的方法,通过考察若干对象主要特征的差别去识别孤立点。偏差检测包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等,但不论何种方法,其基本方法是寻找观测结果与参照值之间有意义的差别。

(6)时序演变分析。数据的时序演变分析是通过对事件或对象行为随时间变化的规律或趋势分析,建立模型。主要包括时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。

文本数据中所涉及到的事件、对象、时间及地点等一般的关系,已在人们的记忆里形成了一些固定的范畴和关系结构,发掘出这些结构就可以发现文本数据所反映的事物发展变化的时间顺序,以此作为理解文本的一条重要线索。

(7)信息摘要。信息摘要是一种自动编制文摘的技术,即利用计算机将一篇文章浓缩成一篇短文的过程。文摘是以简洁的篇幅,忠实地反映原文内容的一段简短文字。通过阅读文摘,人们可以快速地掌握大量文献的基本内容,提高获取信息的效率

(8)信息抽取。信息抽取就是根据一个事先定义好的、描述所需信息规格的模板,从非结构化的文本中抽取相关信息的过程。这个模板通常说明了某些事件、实体或关系的类型。

信息抽取可以帮助人们快速地获取文本中有用的信息。大量的非结构化或半结构化的文本数据中,包含了很多无用和冗余的信息,同时也包含了很多可以用结构化形式表示的数据信息。比如公式、某个重要的数据、各种名称、概念等。从文本中提取这些信息,然后根据它们之间的关系,组织抽取信息的结构,可以从特定的角度提供对于文本数据的概览。

(9)元数据挖掘。元数据挖掘是指对元数据进行的挖掘。例如,对文本元数据的挖掘。文本元数据可以分为两类:一类是描述性元数据,包括文本的名称、日期、大小、类型等信息;一类是语义性元数据,包括文本的作者、标题、机构、内容等信息。文本的元数据挖掘可以为进一步的文本挖掘提供有价值的参考信息,便于更深层次的文本挖掘。

3.数据挖掘的方法

(1)决策树。决策树方法是利用信息论中的互信息寻找数据库中具有最大信息量的属性字段,建立决策树的一个结点,再根据该属性字段的不同取值建立树的分支。每个分支子集中再重复建立树的下层结点和分支的过程。采用决策树,可以将数据规则可视化,也不需要长时间的构造过程,实际应用中的决策树可能非常复杂,但是即使复杂,每一条从根结点到叶子结点的路径的含义仍然可以理解,精度较高。决策树的这种易理解性对数据挖掘的使用者来说是一个显著的优点。因此,决策树在知识发现系统中应用较广。

(2)神经网络。神经网络是在生物神经网络研究的基础上,根据生物神经元和神经网络的特点,模拟人类的形象直觉思维,通过简化、归纳,提炼总结出来的一类并行处理网络,利用其非线性映射的思想和并行处理的方法,用神经网络本身的结构来表达输入和输出的关联知识。

(3)粗糙集。在知识工程研究中,一直存在着信息的含糊性等问题。含糊性有三种:术语的模糊性,如高矮;数据的不确定性,如噪声引起的干扰;知识自身的不确定性,如规则的前后依赖关系可能存在着不可靠因素。粗糙集理论是一种研究不精确、不确定性知识的数学工具。它在处理信息含糊性上有几个优点:无需提供除问题所需处理的数据集合之外的任何先验信息,如统计中要求的先验概率和模糊集中要求的隶属度;算法简单、易于操作。因而,近年来得到越来越广泛的应用。

(4)遗传算法。遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法。其基本思想是基于达尔文进化论和Mendel的遗传学说。该算法由密执安大学教授Holland及其学生于1975年创建。与传统搜索算法不同,遗传算法从一组随机产生的初始解,即所谓种群所开始的搜索过程。种群中的每个个体是问题的一个解,称为染色体。染色体是一串符号,例如一个二进制字符串。这些染色体在后续迭代中不断进化,称为遗传。在每一代中用适应度来衡量染色体的好坏。生成下一代染色体,称为后代。后代是由前一代染色体通过交叉或变异运算形成。根据适应度的大小选择部分后代,淘汰部分后代,从而保持的种群大小是一个常数。适应度高的染色体被选中的概率高。这样,经过若干代之后,算法收敛于最好的染色体,它很可能就是问题的最优解或次优解。

(5)概率论数理统计。概率论和数理统计是应用数学中最重要、最活跃的学科之一,它在计算机发明之前就已广泛应用于各行各业,迄今已有数百年的发展历史。

统计学是关于数据资料的收集、整理、分析和推理的科学,侧重于从研究随机现象的本身的规律性出发,考虑资料的收集、整理、分析,从而找出相应随机变量的分布律或它的数字特征,尽可能作出较合理精确的推断。统计学和数据挖掘有着一个类似的目标,即发现数据中的结构。

(6)模糊集。模糊集是基于模糊数学的一种处理方法,其基本出发点是针对许多信息和数据的模糊性,如雨点的大小,人的高矮,收入的多少等,这些信息本身缺乏一个确定的结果,经常只描述一些元素之间的某种联系的程度。

模糊集与前面介绍的粗糙集都是针对信息和数据的模糊性的处理方法,但两者存在很大不同。从集合的对象间的关系来看,模糊集强调集合本身的含混性,而粗糙集强调的是集合对象的不可分辨性;从研究的对象来看,模糊集研究的是属于同一类的不同对象对集合的隶属关系,重在隶属程度。因此,模糊集是数据挖掘中常用的聚类方法之一。

(7)关联分析。关联分析可以分为两种,即关联规则和时序分析。关联规则即在当前记录的各个特征间寻找内在的联系,时序分析即在历史数据中寻找具有时间上相关的记录间的规律性。

实现关联分析的技术主要是统计学中的置信度和支持度分析。支持度和置信度是描述连接分析的两个重要概念,前者用于衡量连接分析在整个数据集中的统计重要性,后者用于衡量连接分析的可信程度。一般来说,只有支持度和置信度均较高的关联规则才可能是用户感兴趣的、有用的连接规则。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈