首页 理论教育 常用数据挖掘软件介绍

常用数据挖掘软件介绍

时间:2023-05-23 理论教育 版权反馈
【摘要】:RapidMiner是最受欢迎的免费数据挖掘工具之一,它是一个开源的数据挖掘软件,提供一些可扩展的数据分析挖掘算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。除了数据挖掘,RapidMiner还提供如数据预处理和可视化、预测分析和统计建模、评估和部署等功能。用户可以使用SAS数据挖掘商业软件发掘数据集的模式,其描述性和预测性模型为用户更深入地理解数据提供了基础。SAS Enterprise Miner是在数据挖掘市场上令人敬畏的竞争者。

常用数据挖掘软件介绍

随着数据量的爆炸式增长,需要借助一些有效的工具进行数据挖掘工作,从而帮助我们更轻松地从巨大的数据集中找出关系、集群、模式、分类信息等。借助这类工具可以帮助我们更加直观地理解数据挖掘在CRM中的应用,使我们基于数据分析做出最准确的决策

当前推出的数据挖掘软件有很多,其实现的功能、方法都不同。鉴于对软件的评价标准,选择介绍如下:

1)RapidMiner

RapidMiner也叫YALE(Yet Another Learning Environment),提供了图形化界面,采用了类似Windows资源管理器中的树状结构来组织分析组件,树上每个节点表示不同的运算符(operator)。YALE中提供了大量的运算符,包括数据处理、变换、探索、建模、评估等各个环节。YALE是用Java开发的,基于Weka 来构建,也就是说它可以调用Weka 中的各种分析组件。为了将RapidMiner和Hadoop集成起来,创建扩展接口Radoop,它为RapidMiner提供其他的操作接口,可以在Hadoop集群上运行任务;并且可以重用hive和mahout中的某些数据分析功能。

RapidMiner是最受欢迎的免费数据挖掘工具之一,它是一个开源的数据挖掘软件,提供一些可扩展的数据分析挖掘算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。该款工具最大的好处就是,用户无须写任何代码。

除了数据挖掘,RapidMiner还提供如数据预处理和可视化、预测分析和统计建模、评估和部署等功能。RapidMiner还有一些很有用的扩展包,可以用来搭建推荐系统和评论挖掘系统,一个扩展包是推荐系统扩展包rmx_irbrecommender-ANY-5.0.4.jar,可以直接实现基于内容的和基于协同过滤的推荐系统。另一个扩展包是信息抽取扩展包rapidminer-Information-Extraction-1.0.2.jar,可以用于实现特征和观点词的提取,若再配合RapidMiner提供的文本分类功能,应该可以实现一个评论挖掘原型系统。

功能和特点:

·免费提供数据挖掘技术和库;

·100%用Java代码(可运行在操作系统);

·数据挖掘过程简单,强大和直观;

·内部XML保证了标准化的格式来表示交换数据挖掘过程;

·可以用简单脚本语言自动进行大规模进程;

·多层次的数据视图,确保有效和透明的数据;

·图形用户界面的互动原型;

·命令行批处理模式)自动大规模应用;

·Java API(应用编程接口);

·简单的插件和推广机制;

·强大的可视化引擎,许多尖端的高维数据的可视化建模;

·已成功地应用在许多不同的应用领域,包括文本挖掘、多媒体挖掘、功能设计、数据流挖掘、集成开发的方法和分布式数据挖掘。

2)SAS Data Mining(SAS数据挖掘软件)

SAS最开始发源于北卡罗来纳州立大学,1976 年SAS 的成套软件从学校分离出来进入公司。用户可以使用SAS数据挖掘商业软件发掘数据集的模式,其描述性和预测性模型为用户更深入地理解数据提供了基础。

SAS Enterprise Miner(EM)是SAS推出的一个集成的数据挖掘系统,允许使用和比较不同的技术,同时还集成了复杂的数据库管理软件。它的运行方式是通过在一个工作空间(Workspace)中按照一定的顺序添加各种可以实现不同功能的节点,然后对不同节点进行相应的设置,最后运行整个工作流程(Workflow),便可以得到相应的结果。它的自动化程度很高,提供了“抽样—探索—转换—建模—评估”(SEMMA)的方法论、组织方便的处理流程、完美的报表和图形分析结果,以引导用户挖掘的全过程。例如:通过收集分析各种统计资料和客户购买模式,SAS Enterprise Miner可以帮助企业发现业务的趋势,解释已知的事实,预测未来的结果,并帮助你识别出完成任务所需的关键因素,以实现增加收入、降低成本,使企业处于更有利的竞争优势。

SAS Enterprise Miner是在数据挖掘市场上令人敬畏的竞争者。它的GUI界面是数据流驱动的,且它易于理解和使用。它允许一个分析者通过构造一个使用链接连接数据结点和处理结点的可视数据流图建造一个模型。另外,此界面允许把处理结点直接插入到数据流中。由于支持多种模型,所以SAS Enterprise Miner允许用户比较(评估)不同模型并利用评估结点选择最适合的。另外,SAS Enterprise Miner提供了一个能产生被任何SAS 应用程序所访问的评分模型的评分结点。由于它属于商业数据挖掘软件,所以其中包含很多高端的工具,包括自动化、密集像算法、建模、数据可视化等。

SAS Enterprise Miner提供全面的数据挖掘算法,包括聚类分析,SOM/KOHONEN神经网络分类算法、关联模式/序列模式分析、多元回归模型、决策树模型(C45、CHAID、CART)、神经网络模型(MLP、RBF)等。另外,SAS/STAT、SAS/ETS等模块提供的统计分析模型和时间序列分析模型也可嵌入其中。

SAS Enterprise Miner的统计分析非常强大,在以下功能上实现了对CRM的有效支持:

·识别最有利润的客户群,并揭示其中的特征;

·分析用户访问网络路径的规律,改善电子商务的策略;

·通过准确的信用评分提高客户的利润率;

·提高保险业的险率精算程度;

·欺诈检测;

·客户流失管理;

·组合销售

·非法侵入检测;

·其他需要预测和规则发现的应用等。

SAS Enterprise Miner的图形化用户接口和自动化的流程,使你不一定要深入了解这些算法。统计背景较少的业务人员,经过短期培训,就可以按照SEMMA 的流程进行分析挖掘,分析专家也可以使用图形化界面,深入细致地调整分析过程,获得更好的效果。

SAS Enterprise Miner可用于银行、保险、零售等行业,如香港汇丰银行通过应用SAS 技术,进一步提高自己的客户服务能力,取得较好的效益。

3)WEKA

WEKA(Waikato Environment for Knowledge Analysis)是一款知名度较高的开源机器学习和数据挖掘软件。该工具基于Java版本,支持多种标准数据挖掘任务,包括数据预处理、收集、分类、回归分析、可视化和特征选取;其原生的非Java版本主要是为了分析农业领域数据而开发的。

与RapidMiner相比优势在于,它在GNU通用公共许可证下是免费的,因为用户可以按照自己的喜好选择自定义。

高级用户可以通过Java编程和命令行来调用其分析组件。同时,Weka也为普通用户提供了图形化界面,称为Weka Knowledge Flow Environment和Weka Explorer,可以实现预处理、分类、聚类、关联规则、文本挖掘、可视化等。和RapidMiner 相比,Weka 在统计分析方面较弱,但在机器学习方面要强得多。在Weka 论坛可以找到很多扩展包,比如文本挖掘、可视化、网格计算等。很多其他开源数据挖掘软件也支持调用Weka的分析功能。

4)Software-R(www.xing528.com)

R软件是另一种较流行的GNU开源数据挖掘工具,用于统计分析和图形化的计算机语言及分析工具,为了保证性能,其核心计算模块是用C、C++和Fortran编写的,是一款针对编程语言和软件环境进行统计计算和制图的免费软件。同时为了便于使用,它提供了一种脚本语言,即R语言。R语言和贝尔实验室开发的S语言类似。R支持一系列分析技术,包括统计检验、预测建模、数据可视化等。在CRAN上可以找到众多开源的扩展包。

R软件的首选界面是命令行界面,通过编写脚本来调用分析功能。如果缺乏编程技能,也可使用图形界面,比如使用R Commander或Rattle。

除了可以为科学家、研究人员以及学生提供数据挖掘和分析功能外,它还可以提供统计和制图技术,包括线性非线性建模,经典的统计测试,时间序列分析、分类、收集等。

5)Orange数据挖掘软件

Orange是一个开源数据挖掘和机器学习工具,它的图形环境称为Orange 画布(Orange Canvas),用户可以在画布上放置分析控件(Widget),然后把控件连接起来即可组成挖掘流程。这里的控件和KNIME中的节点是类似的概念。每个控件执行特定的功能,但与KNIME中的节点不同,KNIME节点的输入输出分为两种类型(模型和数据),而Orange 的控件间可以传递多种不同的信号,比如learners,classifiers,evaluation results,distance matrices,dendrograms等。Orange的控件不像KNIME的节点分得那么细,也就是说要完成同样的分析挖掘任务,在Orange里使用的控件数量可以比KNIME 中的节点数少一些。Orange 的好处是使用更简单一些,但缺点是控制能力要比KNIME弱。

除了界面友好易于使用的优点,Orange的强项在于提供了大量可视化方法,可以对数据和模型进行多种图形化展示,并能智能搜索合适的可视化形式,支持对数据的交互式探索。

此外,它包含了完整的一系列的组件以进行数据预处理,并提供了数据账目、过渡、建模、模式评估和勘探的功能。

Orange的弱项在于传统统计分析能力不强,不支持统计检验,报表能力也有限。Orange的底层核心也是采用C++编写,同时允许用户使用Python脚本语言来进行扩展开发。

6)KNIME

KNIME(Konstanz Information Miner)是基于Eclipse,用Java 编写的一款开源的数据分析、报告和综合平台,可以进行数据提取、集成、处理、分析、转换以及加载所需的所有数据挖掘工具。此外,它具有图形用户界面,可以帮助用户轻松连接节点进行数据处理。

它结合了数据挖掘和机器学习的各种组件,对商业情报和财务数据分析非常有帮助。此外,用户还可以通过随时添加附加功能轻松地扩展KNIME。

KNIME采用的是类似数据流(Data Flow)的方式来建立分析挖掘流程,挖掘流程由一系列功能节点组成,每个节点有输入/输出端口,用于接收数据或模型、导出结果。

KNIME是基于Eclipse开发环境来精心开发的数据挖掘工具。无须安装,方便使用。和YALE一样,KNIME 也是用Java 开发的,可以扩展使用WEKA 中的挖掘算法。和YALE 不同点的是,KNIME采用的是类似数据流(Data Flow)的方式来建立分析挖掘流程(和SAS EM或SPSS Clementine等商用数据挖掘软件的操作方式类似)。挖掘流程由一系列功能节点(Node)组成,每个节点有输入/输出端口(Port),用于接收数据或模型、导出结果。KNIME中每个节点都带有交通信号灯,用于指示该节点的状态(未连接、未配置、缺乏输入数据时为红灯;准备执行为黄灯;执行完毕后为绿灯)。KNIME有个特色功能——HiLite,允许用户在节点结果中标记感兴趣的记录,并进一步展开后续探索。

7)MATLAB数据分析工具箱

MATLAB(矩阵实验室)是MATrix LABoratory 的缩写,是一款由美国MathWorks公司出品的工程与科学计算软件。MATLAB是一个庞大的应用软件,主要包括核心的MATLAB 基础工具箱和各专业领域的其他工具箱。在数据分析、数据挖掘领域MATLAB 更具有极大优势。

它是一种用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境。它具有下列优势:①MATLAB 程序语言易学,其代码编辑、调试交互式环境比较人性化,易于初学者上手;②MATLAB 软件较其他软件具有较高的灵活性,用户可以自己编写自定义函数来满足自己的需求,同时MATLAB自身提供较多的函数,用户可以进行直接调用;③MATLAB具有较多的网络资源,用户可以根据自己的需要定义一些较新的算法或函数工具箱放在网络上共享。

8)Microsoft SQL Server数据挖掘建模工具

Microsoft SQL Server数据挖掘让用户能够通过直观的数据挖掘的预测性分析来作出明智合理的决策,无缝整合Microsoft商业智能平台并可扩展至商业应用程序。

用户会因为许多丰富且创新的数据挖掘算法而获益良多,这些算法大多是由Microsoft研究人员所开发,其目的是更快速并且准确地支持常见的商业问题。

产品功能:

·购物篮分析:探究使用者经常会一起购买哪些项目,以便产生实时的采购建议及判断产品的位置如何直接影响用户的购买决策;

·客户流失分析:预先处理可能会考虑取消其服务的客户,并指出可让这些客户留下来的好处;

·市场分析:自动将类似的客户分组在一起来定义市场分割,使用这些细分市场可寻找有获利机会的客户;

·预测:预测销售和存货数量并了解两者之间的相互关联性,以便预测瓶颈及提高性能;

·数据浏览:分析不同客户之间的获利机会,或是将偏爱同一产品但品牌不同的客户进行比较,以便找出新的机会;

·无人监督的学习方式:指出企业内不同元素之间的先前未知关系,让您根据多方情报作出更好的决策;

·网站分析:了解人们如何使用您的网站并将类似的使用模式分组在一起,以便提供更好的使用经验给用户;

·营销活动分析:针对最有可能响应促销活动的客户进行促销,以更有效的方式使用营销经费;

·信息质量:指出数据输入或数据加载期间的异常情况并加以处理,以提高信息的质量;

·文字分析:分析多方意见,以找出有关客户或员工所关心的常见话题和趋势,使用未经过组织的输入数据来做出决策。

开发环境:

·具备可执行的深入洞察力,利用Business Intelligence Development Studio(BIDS)来快速且精确地做出决策;

·使用数据挖掘向导和数据挖掘设计工具来建立复杂的模型和交互式视觉效果

·使用增益图和收益图及交叉验证,以视觉和统计方式比较及对照模型的质量,看看是否正确,然后再加以部署;

·用户因为弹性的增加而获益,让他们能够针对筛选过的数据建立多个不同的数据挖掘模型。

9)IBM SPSS Modeler数据挖掘建模工具

IBM SPSS Modeler原名Clementine,2009 年被IBM收购后对产品的性能和功能进行了大幅度改进和提升。它封装了最先进的统计学和数据挖掘技术,来获得预测知识并将相应的决策方案部署到现有的业务系统和业务过程中,从而提高企业的效益。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其他数据挖掘工具相比,SPSS Modeler具有功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终。

拥有直观的操作界面、自动化的数据准备和成熟的预测分析模型,结合商业技术可以快速建立预测性模型。使用SPSS Modeler,可以有效挖掘和维系客户;提高客户的生命周期价值;识别并最小化风险和欺诈;给不同的客户提供个性化服务。

综上所述,这些数据挖掘软件,各有所长,同时也各有缺点。读者可以结合自己的需求来进行选择,或者组合使用多个软件。普通用户可以选用界面友好易于使用的软件,希望从事算法开发的用户则可以根据软件开发工具不同(Java、R、C++、Python 等)来选择相应的软件。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈