选择一个好的属性子集,有两种方法:1,根据数据的普遍特性做出一个独立评估,称为过滤;2,采用最终将要评估机器学习的算法评估子集,称为包装。
用机器学习的方法进行分类的时候,经常会有无关属性和重复属性干扰,为了去除干扰,我们选择一个属性子集,子集与类属性有较大关联,但是自身内部无关联。两个属性A,B之间可以用对称不定性衡量:
其中,H为熵函数,H(A,B)为联合熵。
选择一个好的属性子集,有两种方法:1,根据数据的普遍特性做出一个独立评估,称为过滤;2,采用最终将要评估机器学习的算法评估子集,称为包装。
用机器学习的方法进行分类的时候,经常会有无关属性和重复属性干扰,为了去除干扰,我们选择一个属性子集,子集与类属性有较大关联,但是自身内部无关联。两个属性A,B之间可以用对称不定性衡量:
其中,H为熵函数,H(A,B)为联合熵。