首页 理论教育 挖掘多维关联规则技术优化方法

挖掘多维关联规则技术优化方法

时间:2023-06-24 理论教育 版权反馈
【摘要】:年龄=“20,…,30” ∧购买=“篮球”购买=“篮球服”这个规则就是混合维关联规则。若采用类Apriori算法,则可利用“频繁属性集的每个子集也必须是频繁的”的性质以减少产生的属性集候选数量;此外,还可以使用数据立方体结构挖掘多维关联规则,数据立方体由方体的格组成,方体是多维数据结构,如果变换后任务相关数据存放在数据立方体中,亦可使用类似于Apriori的策略去找频繁属性集;若没有数据立方体则可以构造数据立方体。

挖掘多维关联规则技术优化方法

以上讨论的大多是同一个属性之间的关联关系,比如用户购买的物品。即单维(或维内)关联规则,这些规则一般都是在交易数据库中挖掘的。但是对于多维数据库而言,还有一类多维关联规则,例如:

年龄=“20,…, 30”∧职业=“学生”购买=“篮球

在这里涉及三个维上的数据:年龄、职业、购买。

根据是否允许同一个维重复出现,可以又细分为维间的关联规则(不允许维重复出现)和混合维关联规则(允许维在规则的左右同时出现)。

年龄=“20,…, 30”∧职业=“学生”购买=“篮球”

在这里涉及三个维上的数据:年龄、职业、购买。

根据是否允许同一个维重复出现,可以又细分为维间的关联规则(不允许维重复出现)和混合维关联规则(允许维在规则的左右同时出现)。

年龄=“20,…,30” ∧购买=“篮球”购买=“篮球服”(www.xing528.com)

这个规则就是混合维关联规则。

由于多维关联规则涉及多个属性,这些属性大多可能是量化属性,因此,在挖掘维间关联规则和混合维关联规则的时候,需要考虑不同的属性种类,即类别型和量化型,对于量化属性,需要进行一定的处理(参见量化关联规则挖掘)之后才可以进行。

如果与挖掘任务相关的数据存放在关系表中,多维关联规则挖掘方法的基本思想类似于简单关联规则挖掘,可对Apriori算法稍加改进,搜索所有的相关属性,而不是仅搜索一个属性,即找出所有的频繁属性(即频繁k-属性集合,如{年龄,职业,购买}),而不是频繁项集(如{篮球,足球排球})。若采用类Apriori算法,则可利用“频繁属性集的每个子集也必须是频繁的”的性质以减少产生的属性集候选数量;此外,还可以使用数据立方体结构挖掘多维关联规则,数据立方体由方体的格组成,方体是多维数据结构,如果变换后任务相关数据存放在数据立方体中,亦可使用类似于Apriori的策略去找频繁属性集;若没有数据立方体则可以构造数据立方体。

年龄=“20,…,30” ∧购买=“篮球”购买=“篮球服”

这个规则就是混合维关联规则。

由于多维关联规则涉及多个属性,这些属性大多可能是量化属性,因此,在挖掘维间关联规则和混合维关联规则的时候,需要考虑不同的属性种类,即类别型和量化型,对于量化属性,需要进行一定的处理(参见量化关联规则挖掘)之后才可以进行。

如果与挖掘任务相关的数据存放在关系表中,多维关联规则挖掘方法的基本思想类似于简单关联规则挖掘,可对Apriori算法稍加改进,搜索所有的相关属性,而不是仅搜索一个属性,即找出所有的频繁属性(即频繁k-属性集合,如{年龄,职业,购买}),而不是频繁项集(如{篮球,足球,排球})。若采用类Apriori算法,则可利用“频繁属性集的每个子集也必须是频繁的”的性质以减少产生的属性集候选数量;此外,还可以使用数据立方体结构挖掘多维关联规则,数据立方体由方体的格组成,方体是多维数据结构,如果变换后任务相关数据存放在数据立方体中,亦可使用类似于Apriori的策略去找频繁属性集;若没有数据立方体则可以构造数据立方体。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈