决策树 ID3方法

ID3的决策树中主要使用了香农熵的概念,熵表示了数据的混乱程度,熵的值越大表示混乱程度越大

熵的计算公式为 H = -∑p(xi)log(P(xi)),表示P(xi)表示xi这种情况出现的概率

每次对于特征的选择流程如下,先求出原本数据集的熵值,然后对于每个特征,以此特征作为分类标准之后再进行剩余数据集的熵值,用max(原本数据集的熵值 - 当前数据集的熵值),每次找到最大值进行划分

猜你喜欢

转载自www.cnblogs.com/lalalatianlalu/p/11321684.html