数据分析之表示

NumPy库入门

数据的维度

一维数据
- 一维数据由对等关系的有序或无序数据构成，采用线性方式组织。
- 例如：3.1413, 3.1398, 3.1404, 3.1401, 3.1349, 3.1376。
- 对应列表、数组和集合等概念。
列表和数组区别
- 列表
  - 数据类型可以不同：[3.1413, ‘pi’, 3.1404, [3.1401, 3.1349], ‘3.1376’]。
- 数组
  - 数据类型必须相同：[3.1413, 3.1398, 3.1404, 3.1401, 3.1349, 3.1376]。
二维数据
- 二维数据由多个一维数据构成，是一维数据的组合形式。
- 表格是典型的二维数据，其中，表头是二维数据的一部分。
多维数据
- 多维数据由一维或二维数据在新维度上扩展形成。

高维数据

高维数据仅利用最基本的二元关系展示数据间的复杂结构

例如：键值对

{
    "firstname": "Tian",
    "lastname": "Song",
    "address": {
                "streetAddr": "中关村南大街5号",
                "city": "北京",
                "zipcode": "100081"
               },
    "prof": ["Computer System", "Security"]
}

数据维度的Python表示
- 数据维度是数据的组织形式。
- 一维数据：列表和集合类型。
  - 有序：[3.1398, 3.1349, 3.1376]。
  - 无序：{3.1398, 3.1349, 3.1376}。
- 二维数据：列表类型。
  - [ [3.1398, 3.1349, 3.1376], [3.1413, 3.1404, 3.1401] ]。
- 多维数据：列表类型。
- 高维数据：字典类型或数据表示格式JSON、 XML和YAML格式。
  - dict = { “firstname”: “Tian”, “lastname”: “Song”, }

NumPy的数组对象：ndarray

NumPy
- NumPy是一个开源的Python科学计算基础库，包含：
  - 一个强大的N维数组对象 ndarray。
  - 广播功能函数。
  - 整合C/C++/Fortran代码的工具。
  - 线性代数、傅里叶变换、随机数生成等功能。
- NumPy是SciPy、 Pandas等数据处理或科学计算库的基础。
NumPy的引用
- 尽管别名可以省略或更改，建议使用约定的别名。
- 引入模块的别名：import numpy as np。
N维数组对象：ndarray
- 数组对象可以去掉元素间运算所需的循环，使一维向量更像单个数据。
- 设置专门的数组对象，经过优化，可以提升这类应用的运算速度。
- 科学计算中，一个维度所有数据的类型往往相同。
- 数组对象采用相同的数据类型，有助于节省运算和存储空间。
- ndarray是一个多维数组对象，由两部分构成：
  - 实际的数据。
  - 描述这些数据的元数据（数据维度、数据类型等）。
- ndarray数组一般要求所有元素类型相同（同质），数组下标从0开始。

ndarray实例

In [1]: import numpy as np  # In[], Out[]是IPython提示符。

In [2]: a = np.array([[0, 1, 2, 3, 4], [9, 8, 7, 6, 5]])
# np.array()生成一个ndarray数组。

In [3]: a
Out[3]:
array([[0, 1, 2, 3, 4],       # np.array()输出成[]形式，元素由空格分割。
       [9, 8, 7, 6, 5]])

In [4]: print(a)      
[[0 1 2 3 4]
 [9 8 7 6 5]]

轴(axis)是保存数据的维度，秩(rank)是轴的数量。
ndarray对象的属性
- .ndim
  - 秩，即轴的数量或维度的数量。
- .shape
  - ndarray对象的尺度，对于矩阵，n行m列。
- .size
  - ndarray对象元素的个数，相当于.shape中n*m的值。
- .dtype
  - ndarray对象的元素类型。
- .itemsize
  - ndarray对象中每个元素的大小，以字节为单位。

ndarray数组的元素类型

ndarray的元素类型
- bool：布尔类型，True或False。
- intc：与C语言中的int类型一致，一般是int32或int64。
- intp：用于索引的整数，与C语言中ssize_t一致，int32或int64。
- int8：字节长度的整数，取值：[‐128, 127]。
- int16：16位长度的整数，取值： [‐32768, 32767]。
- int32：32位长度的整数，取值： [ $‐2^{31}, 2^{31}‐1$ ]。
- int64：64位长度的整数，取值： [ $‐2^{63}, 2^{63}‐1$ ]。
- uint8：8位无符号整数，取值：[0, 255]。
- uint16：16位无符号整数，取值：[0, 65535]。
- uint32：32位无符号整数，取值：[ $0, 2^{32}‐1$ ]。
- uint64：32位无符号整数，取值：[ $0, 2^{64}‐1$ ]。
- float16：16位半精度浮点数，取值1位符号位，5位指数，10位尾数。(符号)尾数* $10^{指数}$ 。
- float32：32位半精度浮点数，取值1位符号位，8位指数，23位尾数。
- float64：64位半精度浮点数，取值1位符号位，11位指数，52位尾数。
- complex64：复数类型，实部和虚部都是32位浮点数。
- complex128：复数类型，实部和虚部都是64位浮点数。实部(.real) + j虚部(.imag)。
Python语法仅支持整数、浮点数和复数3种类型。科学计算涉及数据较多，对存储和性能都有较高要求，对元素类型精细定义，有助于NumPy合理使用存储空间并优化性能，对元素类型精细定义，有助于程序员对程序规模有合理评估。
非同质的ndarray对象
- ndarray数组可以由非同质对象构成。
- 非同质ndarray元素为对象类型。
- 非同质ndarray对象无法有效发挥NumPy优势，尽量避免使用。

ndarray数组的创建

从Python中的列表、元组等类型创建ndarray数组。

x = np.array(list/tuple)。
x = np.array(list/tuple, dtype=np.float32)。

当np.array()不指定dtype时，NumPy将根据数据情况关联一个dtype类型。

In [1]: import numpy as np

In [2]: x = np.array([0, 1, 2, 3])  # 从列表类型创建

In [3]: print(x)
[0 1 2 3]

In [4]: x = np.array((4, 5, 6, 7))  # 从元组类型创建

In [5]: print(x)
[4 5 6 7]

In [6]: x = np.array([[1, 2], [9, 8], (0.1, 0.2)])  # 从列表和元组混合类型创建

In [7]: print(x)
[[ 1.   2. ]
 [ 9.   8. ]
 [ 0.1  0.2]]

使用NumPy中函数创建ndarray数组，如： arange, ones, zeros等。

np.arange(n)
- 类似range()函数，返回ndarray类型，元素从0到n‐1。
np.ones(shape)
- 根据shape生成一个全1数组，shape是元组类型。
np.zeros(shape)
- 根据shape生成一个全0数组，shape是元组类型。
np.full(shape, val)
- 根据shape生成一个数组，每个元素值都是val。
np.eye(n)
- 创建一个正方的n*n单位矩阵，对角线为1，其余为0。
np.ones_like(a)
- 根据数组a的形状生成一个全1数组。
np.zeros_like(a)
- 根据数组a的形状生成一个全0数组。

np.full_like(a, val)

根据数组a的形状生成一个数组，每个元素值都是val。


In [1]: import numpy as np

In [2]: np.arange(10)
Out[2]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [3]: np.ones((3, 6))
Out[3]:
array([[ 1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.]])

In [4]: np.zeros((3, 6), dtype = np.int32)
Out[4]:
array([[0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0]])

In [5]: np.eye(5)
Out[5]:
array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  1.]])

In [6]: x = np.ones((2, 3, 4))

In [7]: print(x)
[[[ 1.  1.  1.  1.]
  [ 1.  1.  1.  1.]
  [ 1.  1.  1.  1.]]

 [[ 1.  1.  1.  1.]
  [ 1.  1.  1.  1.]
  [ 1.  1.  1.  1.]]]

In [8]: x.shape
Out[8]: (2, 3, 4)

使用NumPy中其他函数创建ndarray数组。

np.linspace()
- 根据起止数据等间距地填充数据，形成数组。

np.concatenate()

将两个或多个数组合并成一个新的数组。

In [1]: import numpy as np

In [2]: a = np.linspace(1, 10, 4)

In [3]: a
Out[3]: array([  1.,   4.,   7.,  10.])

In [4]: b = np.linspace(1, 10, 4, endpoint = False)

In [5]: b
Out[5]: array([ 1.  ,  3.25,  5.5 ,  7.75])

In [6]: c = np.concatenate((a, b))

In [7]: c
Out[7]: array([ 1.  ,  3.25,  5.5 ,  7.75,  1.  ,  3.25,  5.5 ,  7.75])

ndarray数组的变换

对于创建后的ndarray数组，可以对其进行维度变换和元素类型变换。

ndarray数组的维度变换

.reshape(shape)
- 不改变数组元素，返回一个shape形状的数组，原数组不变。
.resize(shape)
- 与.reshape()功能一致，但修改原数组。
.swapaxes(ax1, ax2)
- 将数组n个维度中两个维度进行调换。

.flatten()

对数组进行降维，返回折叠后的一维数组，原数组不变。

In [1]: import numpy as np

In [2]: a = np.ones((2, 3, 4), dtype = np.int32)

In [3]: a
Out[3]:
array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]])

In [4]: a.reshape((3, 8))
Out[4]:
array([[1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1]])

In [5]: a.resize((3, 8))

In [6]: a
Out[6]:
array([[1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1]])

In [7]: b = a.flatten()

In [8]: b
Out[8]:
array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1])

ndarray数组的类型变换

astype()方法一定会创建新的数组（原始数据的一个拷贝），即使两个类型一致。

new_a = a.astype(new_type)。

In [1]: import numpy as np

In [2]: a = np.ones((2, 3, 4), dtype = np.int32)

In [3]: a
Out[3]:
array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]])

In [4]: b = a.astype(np.float)

In [5]: b
Out[5]:
array([[[ 1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.]],

       [[ 1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.]]])

ndarray数组向列表的转换

ls = a.tolist()。

In [1]: import numpy as np

In [2]: a = np.ones((2, 3, 4), dtype = np.int32)

In [3]: a
Out[3]:
array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]])

In [4]: a.tolist()
Out[4]:
[[[1, 1, 1, 1], [1, 1, 1, 1], [1, 1, 1, 1]],
 [[1, 1, 1, 1], [1, 1, 1, 1], [1, 1, 1, 1]]]

ndarray数组的操作

数组的索引和切片

索引：获取数组中特定位置元素的过程。
切片：获取数组元素子集的过程。

一维数组的索引和切片：与Python的列表类似。

In [1]: import numpy as np

In [2]: a = np.array([9, 8, 7, 6, 5])

In [3]: a[2]
Out[3]: 7

In [4]: a[1:4:2]  
# 起始编号: 终止编号(不含): 步长，3元素冒号分割。
# 编号0开始从左递增，或‐1开始从右递减
Out[4]: array([8, 6])

多维数组的索引：

In [1]: import numpy as np

In [2]: a = np.arange(24).reshape((2, 3, 4))

In [3]: a
Out[3]:
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [4]: a[1, 2, 3]  # 每个维度一个索引值，逗号分割
Out[4]: 23

In [5]: a[0, 1, 2]
Out[5]: 6

In [6]: a[-1, -2, -3]
Out[6]: 17

多维数组的切片：

In [1]: import numpy as np

In [2]: a = np.arange(24).reshape((2, 3, 4))

In [3]: a
Out[3]:
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [4]: a[:, 1, -3]     # 选取一个维度用:
Out[4]: array([ 5, 17])

In [5]: a[:, 1:3, :]      # 每个维度切片方法与一维数组相同
Out[5]:
array([[[ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [6]: a[:, :, ::2]    # 每个维度可以使用步长跳跃切片
Out[6]:
array([[[ 0,  2],
        [ 4,  6],
        [ 8, 10]],

       [[12, 14],
        [16, 18],
        [20, 22]]])

ndarray数组的运算

数组与标量之间的运算
- 数组与标量之间的运算作用于数组的每一个元素。

NumPy一元函数：对ndarray中的数据执行元素级运算的函数。

np.abs(x)，np.fabs(x)
- 计算数组各元素的绝对值。
np.sqrt(x)
- 计算数组各元素的平方根。
np.square(x)
- 计算数组各元素的平方。
np.log(x)，np.log10(x)，np.log2(x)
- 计算数组各元素的自然对数、 10底对数和2底对数。
np.ceil(x)，np.floor(x)
- 计算数组各元素的ceiling值或 floor值。
np.rint(x)
- 计算数组各元素的四舍五入值。
np.modf(x)
- 将数组各元素的小数和整数部分以两个独立数组形式返回。
np.cos(x)，np.cosh(x)，np.sin(x)，np.sinh(x)，np.tan(x)，np.tanh(x)
- 计算数组各元素的普通型和双曲型三角函数。
np.exp(x)
- 计算数组各元素的指数值。

np.sign(x

计算数组各元素的符号值， 1(+), 0, ‐1(‐)。

In [1]: import numpy as np

In [2]: a = np.arange(24).reshape((2, 3, 4))

In [3]: np.square(a)    # 注意数组a并没有真正的被改变。
Out[3]:
array([[[  0,   1,   4,   9],
        [ 16,  25,  36,  49],
        [ 64,  81, 100, 121]],

       [[144, 169, 196, 225],
        [256, 289, 324, 361],
        [400, 441, 484, 529]]], dtype=int32)

In [4]: a = np.sqrt(a)

In [5]: a
Out[5]:
array([[[ 0.        ,  1.        ,  1.41421356,  1.73205081],
        [ 2.        ,  2.23606798,  2.44948974,  2.64575131],
        [ 2.82842712,  3.        ,  3.16227766,  3.31662479]],

       [[ 3.46410162,  3.60555128,  3.74165739,  3.87298335],
        [ 4.        ,  4.12310563,  4.24264069,  4.35889894],
        [ 4.47213595,  4.58257569,  4.69041576,  4.79583152]]])

In [6]: np.modf(a)
Out[6]:
(array([[[ 0.        ,  0.        ,  0.41421356,  0.73205081],
         [ 0.        ,  0.23606798,  0.44948974,  0.64575131],
         [ 0.82842712,  0.        ,  0.16227766,  0.31662479]],

        [[ 0.46410162,  0.60555128,  0.74165739,  0.87298335],
         [ 0.        ,  0.12310563,  0.24264069,  0.35889894],
         [ 0.47213595,  0.58257569,  0.69041576,  0.79583152]]]),
 array([[[ 0.,  1.,  1.,  1.],
         [ 2.,  2.,  2.,  2.],
         [ 2.,  3.,  3.,  3.]],

        [[ 3.,  3.,  3.,  3.],
         [ 4.,  4.,  4.,  4.],
         [ 4.,  4.,  4.,  4.]]]))

NumPy二元函数

+ ‐ * / **
- 两个数组各元素进行对应运算。
np.maximum(x, y)，np.fmax()，np.minimum(x,y)，np.fmin()
- 元素级的最大值/最小值计算。
np.mod(x,y)
- 元素级的模运算。
np.copysign(x,y)
- 将数组y中各元素值的符号赋值给数组x对应元素。

> < >= <= == !=

算术比较，产生布尔型数组。

In [1]: import numpy as np

In [2]: a = np.arange(24).reshape((2, 3, 4))

In [3]: a
Out[3]:
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [4]: b = np.sqrt(a)

In [5]: b
Out[5]:
array([[[ 0.        ,  1.        ,  1.41421356,  1.73205081],
        [ 2.        ,  2.23606798,  2.44948974,  2.64575131],
        [ 2.82842712,  3.        ,  3.16227766,  3.31662479]],

       [[ 3.46410162,  3.60555128,  3.74165739,  3.87298335],
        [ 4.        ,  4.12310563,  4.24264069,  4.35889894],
        [ 4.47213595,  4.58257569,  4.69041576,  4.79583152]]])

In [6]: np.maximum(a, b)    # 运算结果为浮点数
Out[6]:
array([[[  0.,   1.,   2.,   3.],
        [  4.,   5.,   6.,   7.],
        [  8.,   9.,  10.,  11.]],

       [[ 12.,  13.,  14.,  15.],
        [ 16.,  17.,  18.,  19.],
        [ 20.,  21.,  22.,  23.]]])

In [7]: a > b
Out[7]:
array([[[False, False,  True,  True],
        [ True,  True,  True,  True],
        [ True,  True,  True,  True]],

       [[ True,  True,  True,  True],
        [ True,  True,  True,  True],
        [ True,  True,  True,  True]]], dtype=bool)

python进阶之数据分析与展示（二）