CF值是什么?
CF值(Confidence Factor,置信度)是数据挖掘中关联规则挖掘的核心指标之一,用于衡量“若A发生,则B发生”这类规则的可靠性,其本质是条件概率P(B|A),计算公式为:
CF(A→B) = 同时包含A和B的事务数 / 包含A的事务数
它反映了在已知A发生的情况下,B发生的概率,是判断规则是否有实际意义的关键依据。
基础CF值计算题目 1**:某便利店5笔交易记录如下:
- {面包, 牛奶, 鸡蛋}
- {面包, 牛奶}
- {面包, 鸡蛋}
- {牛奶, 鸡蛋}
- {面包}
求规则“面包→牛奶”的CF值。
解析步骤:
- 统计包含“面包”的事务数:交易1、2、3、5 → 共4笔;
- 统计同时包含“面包”和“牛奶”的事务数:交易1、2 → 共2笔;
- 计算CF值:2/4 = 0.5 → 即买面包的顾客中,50%会同时买牛奶。
进阶CF值题目 2**:10笔交易数据如下,要求找出所有支持度≥30%的规则,并计算CF值,选出更高的规则:
- {苹果, 香蕉, 橙子}
- {苹果, 香蕉}
- {苹果, 橙子}
- {香蕉, 橙子}
- {苹果, 香蕉, 橙子, 葡萄}
- {香蕉, 葡萄}
- {苹果, 葡萄}
- {橙子, 葡萄}
- {苹果, 香蕉, 葡萄}
- {香蕉, 橙子, 葡萄}
解析步骤:
- 支持度≥30% → 至少出现3次的项集(总事务数10);
- 生成二项规则并计算CF:
- 苹果→香蕉:5/6≈0.833
- 葡萄→香蕉:5/6≈0.833
- 香蕉→苹果:5/8=0.625
- 橙子→香蕉:5/7≈0.714
- 更高CF规则:苹果→香蕉、葡萄→香蕉(均为0.833)。
CF值是关联规则有效性的核心指标,它帮助我们从数据中挖掘实用规律(如购物篮交叉销售建议),计算时需注意:
- 明确“包含A的事务数”与“同时包含A和B的事务数”的区别;
- 进阶场景中需结合支持度筛选频繁项集,确保规则既可靠又普遍。
通过以上练习,你已掌握CF值的计算逻辑与应用,下次遇到类似问题就能轻松应对啦!
