一、关联分析
从大规模数据集中寻找物品间的隐含关系被称作关联分析( association analysis ) 或者关联规则学习(association rule learning)。
关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集或者关联规则。频繁项集(frequent item sets)是经常出现在一块的物品的集合,关联规则 ( association rules )暗示两种物品之间可能存在很强的关系。
频繁项集是指那些经常出现在一起的物品集合。一个项集的支持度(support)被定义为数据集中包含该项集的记录所占的比例。支持度是针对项集来说的,因此可以定义一个最小支持度,而只保留满足最小支持度的项集。
可信度或置信度(confidence)是针对一条诸如{尿布} --->{葡萄酒}的关联规则来定义的。这条规则的可信度被定义为“ 支持度({尿布, 葡萄酒})/支持度({尿布})"。
二、Apriori原理
为了降低所需的计算时间,研究人员发现一种所谓的Apriori原理。Apriori原理可以帮我们减少可能感兴趣的项集。这意味着如果{0,1}是频繁的,那么{0} 、{1}也一定是频繁的。这个原理直观上并没有什么帮助,但是如果反过来看就有用了,也就是说如果一个项集是非频繁集,那么它的所有超集也是非频繁的,如下图所示。
Apriori 原理是说如果某个项集是频繁的,那么它的所有子集也是频繁的。
三、利用Apriori算法来发现频繁集,并挖掘关联规则
3.1 代码实现
# -*- coding: utf-8 -*- """ Created on Fri May 11 10:21:49 2018 @author: lizihua """ def loadDataSet(): return [[1,3,4],[2,3,5],[1,2,3,5],[2,5]] #构建集合C1,用来存储所有不重复的项值 #类似于C1= set(dataSet) #但这句代码是有问题的,因为dataSet是不可哈希的 #int、float、str、tuple:是可以哈希的; list、set、dict:是不可哈希的 #set、dict的键要求其参数是可哈希的,即哈希or不哈希对可迭代类型的存储元素的要求 #例如:[[1,3,4],[2,3,5],[1,2,3,5],[2,5]]是可迭代的,其存储类型是list,因此,不可哈希 #再例如:[1,2,3,4,5,,6,7,8,9]是可迭代的,其存储类型是int,因此是可哈希的 def createC1(dataSet): C1 = [] for transaction in dataSet: for item in transaction: if not [item] in C1: C1.append([item]) C1.sort() #排序 return list(map(frozenset, C1)) #frozenset指“冰冻”的集合,即不可变集合 #从C1生成L1。 #三个参数:D:数据集的集合形式,Ck:候选项集列表,minSupport:感兴趣的最小支持度 def scanD(D, Ck, minSupport): #空子典,用来存储候选集子集(键key)列表,及出现的次数(值value) ssCnt = {} for tid in D: #遍历数据集所有交易记录 for can in Ck: #遍历候选集 if can.issubset(tid): #判断候选集是否是交易记录的子集, if can not in ssCnt.keys(): #若候选集不是ssCnt的键 ssCnt[can]=1 #则使得字典中该键的值为1 else: #反之,即存在该键,则键值+1 ssCnt[can]+=1 numItems = float(len(D)) #迭代次数 retList = [] #用来存储大于最小支持度的的候选集 supportData = {} #用来存储各个候选集及其支持度 for key in ssCnt: support = ssCnt[key]/numItems if support >= minSupport: retList.append(key) supportData[key] = support return retList, supportData #Apriori算法 #输入参数是:频繁项集列表Lk与项集元素个数k,输出为Ck #例如:Lk=[{1},{2},{3}],k=3,则,Ck=[{1,2},{1,3},{2,3}] #作用:由k个项组成的候选集,构建一个k+1项组成的候选集的列表 def aprioriGen(Lk, k): retList = [] lenLk = len(Lk) for i in range(lenLk): for j in range(i+1, lenLk): #前k-2个项相同时,将两个集合合并 #注意:当Lk[0]={1},k=2,则list(Lk[i])[:k-2]=[] L1 = list(Lk[i])[:k-2];L2 = list(Lk[j])[:k-2] L1.sort();L2.sort() if L1 == L2: retList.append(Lk[i] | Lk[j]) return retList #生成最终支持度大于minSupport的候选集列表 def apriori(dataSet, minSupport = 0.5): C1 = createC1(dataSet) D = list(map(set,dataSet)) L1,supportData = scanD(D,C1,minSupport) L = [L1] k=2 while(len(L[k-2]) > 0): Ck = aprioriGen(L[k-2], k) Lk,supK = scanD(D,Ck,minSupport) supportData.update(supK) L.append(Lk) k += 1 return L,supportData #关联规则生成函数 #参数:频繁项集列表,包含频繁项集支持数据的字典,最小可信度阈值 #生成一个包含可信度的规则列表 def generateRules(L,supportData,minConf = 0.7): bigRuleList = [] #只获取有两个或更多元素的集合,L[0]有1个元素,L[1]有2个元素,L[2]有3个元素 for i in range(1,len(L)): for freqSet in L[i]: H1 = [frozenset([item]) for item in freqSet] if (i > 1): #3个及3个以上元素 rulesFromConseq(freqSet, H1, supportData, bigRuleList, minConf) else: #i=1,有2个元素 calcConf(freqSet,H1,supportData,bigRuleList,minConf) return bigRuleList #对规则进行评估 # def calcConf(freqSet,H,supportData,brl,minConf = 0.7): prunedH = [] #用来保存满足最小可信度的规则 #遍历H中所有项集,计算它们的可信度 for conseq in H: #计算freqSet-conseq--->conseq的可信度 conf = supportData[freqSet]/supportData[freqSet - conseq] if conf >= minConf: print (freqSet-conseq,'--->',conseq,'conf:',conf) brl.append((freqSet-conseq,conseq,conf)) #将规则及可信度以元组的方式存储在brl prunedH.append(conseq) return prunedH #生成候选集规则集合 #参数:频繁项集,规则右边的元素列表H def rulesFromConseq(freqSet,H,supportData,brl,minConf=0.7): m = len(H[0]) #频繁集大小m #查看频繁项是否可以大到可以移除大小为m的子集 if (len(freqSet) > (m+1)): Hmp1 = aprioriGen(H,m+1) #利用aprioriGen来生成H中元素的无重复组合,并存储到Hmp1 #作为下一次迭代的H列表,利用calcConf函数测试它们的可信度以确定是否满足要求 Hmp1 = calcConf(freqSet,Hmp1,supportData,brl,minConf) #若不止一条规则满足要求,则使用函数rulesFromConseq()来判断是否可以进一步组合这些规则 if (len(Hmp1) > 1): rulesFromConseq(freqSet,Hmp1,supportData,brl,minConf) if __name__ == '__main__': dataSet = loadDataSet() C1=createC1(dataSet) print(C1) D = list(map(set,dataSet)) print(D) L1,suppData0 = scanD(D,C1,0.5) print(L1) print(suppData0) L,suppData = apriori(dataSet, minSupport = 0.5) print(L) rules = generateRules(L,suppData, minConf = 0.7) print(rules)