ML之FE之chi2:基于mushroom蘑菇数据集利用对RF模型采用chi2算法(基于P值调参的k值挑选)实现特征筛选并可视化特征个数与模型得分的变化曲线、输出最佳特征个数Top_i的特征名称应用案

ML之FE之chi2:基于mushroom蘑菇数据集利用对RF模型采用chi2算法(基于P值调参的k值挑选)实现特征筛选并可视化特征个数与模型得分的变化曲线、输出最佳特征个数Top_i的特征名称应用案

目录

基于mushroom蘑菇数据集利用对RF模型采用chi2算法(基于P值调参的k值挑选)实现特征筛选并可视化特征个数与模型得分的变化曲线、输出最佳特征个数Top_i的特征名称应用

# 1、定义数据集

# 2、特征工程/数据预处理

# 2.1、统计各特征的缺失值占比

# 2.4、特征编码化:特征数据集执行OneHotEncoding编码、标签数据执行LE化

# 3、利用chi2算法(基于P值调参的k值挑选)实现特征筛选

# 3.1、0~1数据归一化:卡方只取非负值作为输入

# 3.2、基于RF模型的交叉验证评估

# 3.3、学习曲线选K值:绘制随着不同特征个数而得出模型得分的变化曲线

# 3.4、P值调参

# 3.5、输出最佳特征个数Top_i的特征名称


相关文章
ML之FE之chi2:基于mushroom蘑菇数据集利用对RF模型采用chi2算法(基于P值调参的k值挑选)实现特征筛选并可视化特征个数与模型得分的变化曲线、输出最佳特征个数Top_i的特征应用案例
ML之FE之chi2:基于mushroom蘑菇数据集利用对RF模型采用chi2算法(基于P值调参的k值挑选)实现特征筛选并可视化特征个数与模型得分的变化曲线、输出最佳特征个数Top_i的特征实现代码

基于mushroom蘑菇数据集利用对RF模型采用chi2算法(基于P值调参的k值挑选)实现特征筛选并可视化特征个数与模型得分的变化曲线、输出最佳特征个数Top_i的特征名称应用

# 1、定义数据集

# 2、特征工程/数据预处理

# 2.1、统计各特征的缺失值占比

# 2.4、特征编码化:特征数据集执行OneHotEncoding编码、标签数据执行LE化

# 3、利用chi2算法(基于P值调参的k值挑选)实现特征筛选

# 3.1、0~1数据归一化:卡方只取非负值作为输入

# 3.2、基于RF模型的交叉验证评估

0.912357711254263

# 3.3、学习曲线选K值:绘制随着不同特征个数而得出模型得分的变化曲线

# 3.4、P值调参

p<=0.05或0.01,说明两组数据是相关的,反之相互独立

109

# 3.5、输出最佳特征个数Top_i的特征名称

20 ['bruises_f', 'bruises_t', 'odor_f', 'odor_n', 'odor_y', 'gill-spacing_w', 'gill-size_b', 'gill-size_n', 'gill-color_b', 'stalk-surface-above-ring_k', 'stalk-surface-above-ring_s', 'stalk-surface-below-ring_k', 'ring-type_l', 'ring-type_p', 'spore-print-color_h', 'spore-print-color_k', 'spore-print-color_n', 'spore-print-color_w', 'population_v', 'habitat_p']

猜你喜欢

转载自blog.csdn.net/qq_41185868/article/details/129930807