当前位置:首页 >> 攻略 >> 全解析,从基础概念到实战应用

全解析,从基础概念到实战应用

admin 攻略 3

CF值是什么?

CF值(Confidence Factor,置信度)是数据挖掘中关联规则挖掘的核心指标之一,用于衡量“若A发生,则B发生”这类规则的可靠性,其本质是条件概率P(B|A),计算公式为:
CF(A→B) = 同时包含A和B的事务数 / 包含A的事务数
它反映了在已知A发生的情况下,B发生的概率,是判断规则是否有实际意义的关键依据。

基础CF值计算题目 1**:某便利店5笔交易记录如下:

  1. {面包, 牛奶, 鸡蛋}
  2. {面包, 牛奶}
  3. {面包, 鸡蛋}
  4. {牛奶, 鸡蛋}
  5. {面包}

求规则“面包→牛奶”的CF值。

全解析,从基础概念到实战应用

解析步骤

  1. 统计包含“面包”的事务数:交易1、2、3、5 → 共4笔;
  2. 统计同时包含“面包”和“牛奶”的事务数:交易1、2 → 共2笔;
  3. 计算CF值:2/4 = 0.5 → 即买面包的顾客中,50%会同时买牛奶。

进阶CF值题目 2**:10笔交易数据如下,要求找出所有支持度≥30%的规则,并计算CF值,选出更高的规则:

  1. {苹果, 香蕉, 橙子}
  2. {苹果, 香蕉}
  3. {苹果, 橙子}
  4. {香蕉, 橙子}
  5. {苹果, 香蕉, 橙子, 葡萄}
  6. {香蕉, 葡萄}
  7. {苹果, 葡萄}
  8. {橙子, 葡萄}
  9. {苹果, 香蕉, 葡萄}
  10. {香蕉, 橙子, 葡萄}

解析步骤

  1. 支持度≥30% → 至少出现3次的项集(总事务数10);
  2. 生成二项规则并计算CF:
    • 苹果→香蕉:5/6≈0.833
    • 葡萄→香蕉:5/6≈0.833
    • 香蕉→苹果:5/8=0.625
    • 橙子→香蕉:5/7≈0.714
  3. 更高CF规则:苹果→香蕉、葡萄→香蕉(均为0.833)。

CF值是关联规则有效性的核心指标,它帮助我们从数据中挖掘实用规律(如购物篮交叉销售建议),计算时需注意:

  • 明确“包含A的事务数”与“同时包含A和B的事务数”的区别;
  • 进阶场景中需结合支持度筛选频繁项集,确保规则既可靠又普遍。

通过以上练习,你已掌握CF值的计算逻辑与应用,下次遇到类似问题就能轻松应对啦!

协助本站SEO优化一下,谢谢!
关键词不能为空
同类推荐