第七章 数据挖掘面临的挑战
数据种类、数据挖掘任务和数据挖掘方法的多样性给数据挖掘带来了许多挑战性的课题。如数据挖掘语言的设计,高效而有效的数据挖掘方法和系统的开发,交互和集成的数据挖掘环境的建立,以及应用数据挖掘技术解决大型应用等问题,都是目前数据挖掘研究人员及系统和应用开发人员所面临的主要挑战。尽管Data Mining 与KDD的研究可以继承大量在计算机科学与控制理论中已经发展成熟的理论与技术,但是仍然存在不少亟待解决的问题。
1.超大规模数据库和高维数据问题
现在数据库中存储的记录有数百个属性,每个数据集含有数百万条记录的现象相当普遍,对这些数据库的最优化分析容易产生组合爆炸,这就需要考虑将求最优解改为可接受解。尽管如此,采用并行计算、降维计算以及利用先验知识摒除无关变量等方法还是十分必要的。
2.数据丢失问题
数据丢失问题在商业领域中表现得尤为突出。可以想象如果某数据库不是为知识发现而定做的,它就可能会存在一些重要数据或属性丢失的问题。如果不经认真考虑来设计数据库,重要的属性可能会被遗漏掉。目前主要利用统计或者是不确定性的理论与方法来确定隐含变量及依赖关系。
3.数据的异质性
由于不同的应用存在着许多不同种类的数据和数据库,有时候希望一个知识发现系统对不同类型的数据都能进行有效地处理。许多应用数据库包含着复杂的数据结构,例如结构化数据和复杂数据对象、超文本和多媒体数据等。一个强大的系统应该能够对这些复杂的数据类型进行有效的数据挖掘。但是,由于数据类型的差异和数据挖掘目的的不同,一个数据挖掘系统能够处理所有类型的数据是不现实的。特定的数据挖掘系统将针对特定的数据类型进行知识挖掘。
4.变化的数据和知识问题
变化的数据库有可能会使原来搜索到的模式变得不正确。解决的办法是考虑增加模式更新的功能。另外,还可以把变化的数据当成新知识发现的起点而搜索新的模式,这与增量学习的研究有密切的关系。
为了有效地从一个拥有巨大数据量的数据库中提取信息,知识发现算法必须具有良好的效率和可伸缩性。也就是说,大型数据库的数据挖掘执行时间应该是可预期、可接受的。具有指数级操作的算法是不实用的。
6.数据挖掘结果的有用性、可靠性和可表达性
发现的知识应该能够精确地描述数据库的内容,并可以应用。不完备的发现应被衡量,或以近似的规则和定量的规则的形式表达。例外的和异常的数据应在数据挖掘系统中加以很好地处理。这也会促使用户对发现知识的质量的衡量方法进行系统学习。
7.模式的可理解性问题
对“人的数据库理解”任务,需要使知识发现的结果易于被非计算机专业的用户理解。目前可能的解决办法有:图形化表示方法、有向无环图(DAG)的规则结构化、自然语言的生成以及数据与知识的可视化等。(www.xing528.com)
8.各种数据挖掘要求和结果的表现
在一个大的数据集中可以获得许多不同种类的知识。用户可以从不同的方面去查看已发现的知识,并以不同的形式表现它们。这就要求能够以高级语言或图形用户界面来表现数据挖掘要求和已发现的知识,以便非专业人员能指明数据挖掘的任务和理解并直接应用已发现的知识。这也要求发现系统采纳易理解的知识表现技术。
9.在多抽象层交互地挖掘知识
既然不能准确地预料从数据库中能发现什么,高层数据挖掘查询就应该被当做揭示一些深层开采踪迹的一种探索。应鼓励交互式地发现方法,因为它允许用户交互地、精确地提出数据挖掘要求、动态变化数据焦点、逐步深化数据挖掘的过程和在多个抽象层次上从各种角度灵活地观察数据与数据挖掘的结果。
10.网络与分布式环境下的KDD问题
随着Internet的不断发展,网络资源日渐丰富,这就需要分散的技术人员可协作地各自独立处理分离数据库。因此,考虑能适应分布式与网络环境的工具、技术及系统是必然的。人工智能中关于多Agent系统的研究将为Data Mining和KDD研究提供理论基础与有效的工具。
11.与其他系统的集成问题
它涉及两个层次的问题。其一,由于数据数量巨大,而且性质多样化、复杂化,使得任何单一的理论与方法均难以完整地刻画它,因此将多种理论与方法有效地整合是必要的;其二,它必须与数据库系统、知识库系统、专家系统、决策支持系统、可视化工具、网络技术等技术进行整合才能使其真正具有实用价值。
12.私有数据的保护和数据安全
当数据可以从许多不同的角度、不同的抽象层次进行访问时,数据的安全性和秘密的隐蔽性就受到了严重的威胁。因此,研究什么情况下知识发现将导致对秘密的侵犯和用什么样的安全措施来避免敏感数据的暴露就显得十分重要。
13.数据挖掘语言的标准化
目前,学术界还没有统一的标准化挖掘语言,类SQL语言的挖掘语言研究将会极大地促进数据挖掘技术的应用与推广。
14.可视化挖掘
随着可视化技术的进一步发展,它将成为数据分析工具的一种基本的功能构成,如何使数据挖掘工具更为人性化和实用性将是未来的研究重点。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。