检测和过滤异常值
过滤或变换异常值(outlier)在很大程度上就是运用数组运算。来看一个含有正态 分布数据的DataFrame
=====================================
找出某列中绝对值大小超过3的值
=====================================
选出全部含有“超过3或-3的值”的行,你可以在布尔型DataFrame中使用any方法
=====================================
就可以对值进行设置。可以将值限制在区间-3到3以内
=====================================
根据数据的值是正还是负,np.sign(data)可以生成1和-1
排列和随机采样
利用numpy.random.permutation函数可以轻松实现对Series或DataFrame的列的排 列工作(permuting,随机重排序)。通过需要排列的轴的长度调用permutation, 可产生一个表示新顺序的整数数组
=====================================
基于iloc的索引操作或take函数中使用该数组了
=====================================
不用替换的方式选取随机子集,可以在Series和DataFrame上使用sample方法
=====================================
要通过替换的方式产生样本(允许重复选择),可以传递replace=True到sample
扫描二维码关注公众号,回复:
9210282 查看本文章
++++++++++++++++++++++++++++++++++++