首页 理论教育 数据挖掘的历史与现状

数据挖掘的历史与现状

时间:2023-05-23 理论教育 版权反馈
【摘要】:机器学习的过程就是将一些已知的并已被成功解决的问题作为范例输入计算机,机器通过学习这些范例总结并生成相应的规则,这些规则具有通用性,使用它们可以解决某一类的问题。人们接受了这个术语,并用KDD来描述整个数据发掘的过程,包括最开始的制订业务目标到最终的结果分析。表7.5数据挖掘的进化历程数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机器学习。

数据挖掘的历史与现状

随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。

数据挖掘其实是一个逐渐演变的过程。在电子数据处理的初期,人们就试图通过某些方法来实现自动决策支持,当时机器学习成为人们关心的焦点。机器学习的过程就是将一些已知的并已被成功解决的问题作为范例输入计算机,机器通过学习这些范例总结并生成相应的规则,这些规则具有通用性,使用它们可以解决某一类的问题。随后,随着神经网络技术的形成和发展,人们的注意力转向知识工程。知识工程不同于机器学习那样给计算机输入范例,让它生成规则,而是直接给计算机输入已被代码化的规则,计算机则通过使用这些规则来解决某些问题。专家系统就是这种方法获得的成果,但它存在投资大、效果不甚理想等不足。20 世纪80 年代,人们又在新的神经网络理论的指导下,重新回到机器学习的方法上,并将其成果应用于处理大型商业数据库。20 世纪80 年代末出现一个新的术语,即数据库中的知识发现,简称KDD(Knowledge Discovery in Database),它泛指所有从源数据中发掘模式或联系的方法。人们接受了这个术语,并用KDD来描述整个数据发掘的过程,包括最开始的制订业务目标到最终的结果分析。但最近人们却逐渐发现数据挖掘中有许多工作可以由统计方法来完成,并认为最好的策略是将统计方法与数据挖掘有机地结合起来。

从商业数据到商业信息的进化过程中,每一步前进都是建立在上一步的基础上的。从表7.5 中我们可以看到,第四步进化是革命性的,因为从用户的角度来看,这一阶段的数据库技术已经可以快速地回答商业上的很多问题了。(www.xing528.com)

表7.5 数据挖掘的进化历程

数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计人工智能、机器学习。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈