你应该是一阵风丫

2020-09-10   阅读量: 608

大数据 蟒蛇

关联规则总结

扫码加入数据分析学习群

A、普通的的算法


1.找出候选集和频繁集

创建候选1项集,根据最小支持度,生成频繁1项集。

创建候选2项集(频繁1项集的两两组合,去掉重复),再生成频繁2项集。

创建候选3项集(频繁2项集的两两组合,去掉重复),再生成频繁3项集。

2.生成关联规则

针对任意k(k>=2)项集,生成如下的关联规则

R: f-β==>β

其中f是k项集,β是其任意真子集。


根据每一个关联规则的置信度和提升度,进行过滤。


B、Apriori算法


1.对所有数据进行排序

2.优化候选集

当k>=2, 前面所有的项相同,只有最后一项不同,并且后面的项>前面的项

快速的得到候选集

3.优化频繁项集

从该k项候选集中,找到所有的k-1项集,如果这些项集不在频繁k-1项集中,删除该k项集

4.优化关联规则

当k=3,开始优化,根据上面的公式,β从1开始,如果f-β==>β不满足关联规则,则f-β的所有的真子集都不满足关联规则。


添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
72.0378 2 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子