首页 理论教育 Apriori算法及关联分析建模:实现数据挖掘

Apriori算法及关联分析建模:实现数据挖掘

时间:2023-06-25 理论教育 版权反馈
【摘要】:Apriori算法具体分为两步,先用最小支持度为阈值求取频繁项目集,再用最小置信度为阈值求取强关联规则,在本书中,由于关联规则的前项和后项是被限制的,据此可以减少扫描的时间成本,对原算法进行改进。图7.28Apriori算法流程由于第一步中的限制,频繁项集中只含有一个振荡模态,且作为后项,记为qi。进一步可以采用Apriori算法进行关联分析。图7.29关联分析建模流程

Apriori算法及关联分析建模:实现数据挖掘

1.Apriori算法

设D表示风力发电数据集,是关联分析的输入数据。若存在关联规则“Cluster1→SSTI”,其含义是当影响因素在聚簇1中时,很有可能导致输出功率振荡模态中含有SSTI分量。这里“Cluster1”和“SSTI”都是风电数据项集,该项集还可能是“Cluster1&Cluster2”等不同的聚簇组合及“SSR”等不同的振荡类型。对于关联规则“Cluster1→SSTI”,其支持度support(Cluster1→SSTI)为“Cluster1”和“SSTI”同时发生的事务占全体事务的百分比。置信度confidence(Cluster1→SSTI)为在所有“Cluster1”发生的事务中,“SSTI”同时发生的事务的占比,如式(7.36)所示。在事务集D中,设定最小支持度min sup和最小置信度min conf的规则。满足支持度大于最小支持度、置信度大于最小置信度的规则就是所要寻找的强关联规则。

Apriori算法具体分为两步,先用最小支持度为阈值求取频繁项目集,再用最小置信度为阈值求取强关联规则,在本书中,由于关联规则的前项和后项是被限制的,据此可以减少扫描的时间成本,对原算法进行改进。其算法流程如图7.28所示。

图7.28 Apriori算法流程(www.xing528.com)

由于第一步中的限制,频繁项集中只含有一个振荡模态,且作为后项,记为qi。第二步是在挖掘了所有的频繁项集之后,对每个频繁前项项集pj(j=1,2,…,m)的不含q子集pi(i=1,2,…,n),对应不同的后项qj生成关联规则,并计算置信度按式筛选,当不等式成立时,就可以输出规则为“pji→qi”。

2.关联分析建模

风速/电压波动与振荡模态的关联分析进行建模,建模流程如图7.29所示。首先对原始数据进行预处理,利用k-Means聚类算法对原始数据进行聚类,找出噪声数据并进行剔除,使用前后数据的均值来填充空缺数据,并对功率数据低通滤波,滤除高频分量。接着是数据变换,这一步是为了获得关联分析的输入数据。对数据进行分段之后同时进行两个步骤,一方面是对每段的功率数据进行Prony分析,拟合阶数均取20,采样频率为100 Hz,将Prony分析得到的分量进行对比筛选,最终得到振荡模态的标记数据集;另一方面是对风速和电压波动聚类分析,得到风速/电压聚簇数据集。汇总振荡模态的标记数据集和风速/电压聚簇数据集就可以得到关联规则的输入数据集。进一步可以采用Apriori算法进行关联分析。

图7.29 关联分析建模流程

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈