+Association-Pattern-联合分析的商业运用.ppt

1 关联模式分析 AssociationPatternAnalysis 2 关联模式分析 AssociationPatternAnalysis 概述 找出多个目标 事件之间的重要关联例 一个顾客买了笔记本电脑 同时可能买一个无线局域网卡 例如 2 项集 3 关联模式分析 associationpatternanalysis 从一系列过去的交易中发现有兴趣的 共发项 每一笔交易都包含一个或多个产品项零售交易分析 例如 从零售商那里购买的物品 识别那些产品可能被同时购买共发数据模式在货架摆放和促销方面有商业价值 例如 婴儿纸尿布和啤酒 薯片和软饮料 面包 牛奶和黄油 关联模式分析 概述 4 关联分析 市场购物篮数据 5 关联分析 市场购物篮数据表示法 6 关联分析 项集和势 项集 itemset 一个或一群项的集合 例如 鸡蛋 牛奶 项集的势 大小 cardinality 一个项集所包含项的数目在目标数据中 包含目标项集的交易数与交易总数之间的比率称之为该项集的支持度 supportoftheitemset 7 X Y的支持度 目标数据中 同时包含X与Y的交易数除以交易总数N 目标数据中所包含的交易总数n X Y 目标数据中同时包含X和Y的交易数 关联分析 支持度 8 X Y的可信度 在目标数据中 同时包含X与Y的交易数除以包含X的交易总数n X 目标数据中包含X的交易数n X Y 目标数据中同时包含X和Y的交易数 关联分析 可信度 9 衬衫 领带 支持度 13 5 可信度 70 关联定义 支持度和可信度 10 关联分析 范例 项集 Computer Harddisk 的支持度是1 3 33 3 项集 Computer 的支持度是多少 11 关联分析 范例 关联 Computer Harddisk 支持度 1 3 33 3 可信度 1 2 50 Computer MCSEbook Computer MCSEbook Harddisk 12 假定公司销售100种产品 关联分析 复杂性 13 可能的项集数目随着给定项集势的增长而成指数增长因为关联分析的复杂性 计算所有可能项集支持度的代价非常高昂 比如 所需时间和计算量 为了高效地执行关联分析 满足指定的最低支持度和可信度的关联关系 修剪策略可以被用来减少值得考虑项集的数目基于测量支持度的向下闭包性质 最低支持度修剪可以被用来快速地挖掘关联模式 关联分析 挑战 14 如果关联模式A和B和C D存在 那么它的支持度必须超过最低指定支持度 s 也就是 关联分析 向下的支持度闭包性质 15 关联分析 向下的支持度闭包性质 16 反向地 关联分析 向下的支持度闭包性质 17 如果一个项集 A 的支持度小于指定的最低支持度 那么任何包含该项集 A 的相集不应该被考虑 因为它们的支持度绝对不会满足最低支持度的要求 例如 Apriori算法这种分析方法也被叫做 最低支持度修剪 方法 它是基于支持度的向下闭包性质 关联分析 向下的支持度闭包性质 18 Apriori算法 如果 a b 集合不频繁出现 那么 a b 的所有超集都不频繁出现 删除的超集 非频繁项集InfrequentItemset 19 假设 最低支持度s 30 最低可信度c 60 Apriori算法 范例 20 第一步 产生频繁1 项集 Apriori算法 范例 21 第二步 产生候选2 项集 Apriori算法 范例 22 第三步 产生频繁2 项集 Apriori算法 范例 23 第四步 从频繁2 项集中寻找关联模式 第五步 重复第二步以产生候选3 项集在这个例子中 频繁2 项集只有 橙汁 苏打水 只能产生一个空的候选3 项集 因此 运算到此结束 Apriori算法 范例 24 Apriori算法 范例总结