转换类别属性量的一般方法

数据分析中经常会遇到类别属性,比如日期,性别,街区编号,IP地址等. 绝大部分数据分析算法是无法直接处理这类变量,需要先把他们处理成数值型量.

取消字符
参考 sklearn.preprocessing.LabelEncoder. 加入一个属性有 $N$ 个不同的值,通过这个函数将把它转换到 $[0,N-1]$ 上的整数. 转换后的属性具有了次序和可比较性,这个两个属性源属性值未必具备,是利是弊视具体应用而定.
编码
离散型数值对某些算法是可以进行训练的,比如决策树, 但是对于SVM/神经网络而言依然不合适,我们需要对其进行编码.
- one-hot-encoding
  参考 sklearn.preprocessing.OneHotEncoder
  离散型属性有 $N$ 个不同的值,则可以用长度为 $N$ 二进制序列 $(b_0,b_1,b_2,...,b_{N-1})$ 表示, $b_i$ 有且只有一个为 $1$ ,其他为 $0$ . 假设离散属性只有三个不同的值
  $\{A,B,C\}$
属性值二进制序列

A 001

B 010

C 100

one-hot-encoding后会增加 $N$ 列
- 均值编码
  如上所述, one-hot-encoding后会增加 $N$ 个属性列,如果 $N$ 很大, one-hot-encoding是无法接受的. 这是可以考虑尝试均值编码,节省内存.

属性值	二进制序列
A	001
B	010
C	100

均值编码

均值编码是一种参考目标值的编码方式, 2001年在文献中提出,在数据分析中得到广泛应用.

分类问题

对于 $C$ 分类问题,均值编码后只需要增加 $C-1$ 个属性列,如果 $C$ 远远小于 $N$ ,则相对one-hot-encoding可以节省很多内存. 其出发点是用概率 $P(y=y_i|x=x_i)$ 代替属性值 $x$ , 其中 $x$ 表示属性值, $y$ 表示类别值. 但实际问题中,经常会遇到 $x=x_i$ 对应的样本数目比较少,导致对 $P(y=y_i|x=x_i)$ 的计算不准确. 引入先验概率 $P(y=y_i)$ ,公式转换成

f (y_{j}, x_{i}) = λ (n_{i}) P (y = y_{j} | x = x_{i}) + (1 - λ (n_{i})) P (y = y_{j})

$f(y_j,x_i) = \lambda(n_i)P(y=y_j|x=x_i)+(1-\lambda(n_i))P(y=y_j)$
其中

j \in [0, C)

$j \in [0,C)$ ,

n_{i}

$n_i$ 是训练集中

x_{i}

$x_i$ 的样本个数,

λ (n_{i}) \in [0, 1]

$\lambda(n_i) \in [0,1]$ 负责计算两个概率值的可靠性,针对应用有不同的定义方法,如下是一个例子

λ (n) = \frac{1}{1 + e^{n - k}}

$\lambda(n) = \frac{1}{1 + e^{n-k} }$
其中

k

$k$ 是一个可调参数,当

x

$x$ 在训练集中出现次数

n = k

$n=k$ 时,

λ (n) = 0.5

$\lambda(n)=0.5$ ,两个概率的可靠性相等,随者

n

$n$ 的增大,先验概率

P (y = y_{i})

$P(y=y_i)$ 的可靠性逐渐降低.

回归问题

回归问题同样可以使用均值编码,只需要把概率换成均值

f (y, x_{i}) = λ (n_{i}) \frac{\sum_{x = x_{i}} y}{n_{i}} + (1 - λ (n_{i})) \frac{\sum y}{N}

$f(y,x_i) = \lambda(n_i)\frac{\sum_{x=x_i} y}{n_i}+(1-\lambda(n_i))\frac{\sum y}{N}$
其中

\frac{\sum_{x = x_{i}} y}{n_{i}}

$\frac{\sum_{x=x_i} y}{n_i}$ 表示

x = x_{i}

$x=x_i$ 对应的

y

$y$ 均值,

\frac{\sum y}{N}

$\frac{\sum y}{N}$ 是整个训练集上

y

$y$ 的均值

均值编码-处理高基数类别属性的一个方法

转换类别属性量的一般方法

均值编码

分类问题

回归问题

猜你喜欢