第一章绪论就抛出一堆概念,看到假设空间与样本空间有点懵,查了一些资料才大概了解,记录一下。
一、基本概念
假设空间:机器学习中可能的函数构成的空间称为“假设空间”。(百度百科的概念)
我的理解是:针对某一个问题,所有可能存在的情况的集合,比如说书上的西瓜问题,西瓜的特征有三个,色泽、根蒂、敲声,这三个特征可以用来描述一个西瓜,已知的特征中色泽有两种,根蒂有三种,敲声有三种,根据排列组合是有18种情况,但是其他的西瓜可能并不局限于这18种情况,我们是要找到能够描述好瓜的特征,有可能只要敲起来浊响,无论根蒂和色泽是什么样的都是好瓜,也有可能不存在好瓜,三个特征都是空。
版本空间:是概念学习中与已知数据集一致的所有假设的子集集合。假设空间考虑了所有的情况,但是其中的一些情况与已知的数据集不一致,比如在已知的数据集中是存在好瓜的概念,所以假设空间中的Ø就属于版本空间的。
二、西瓜问题
根据西瓜问题,假设空间应该如下所示:
1 色泽=*,根蒂=*,敲声=*
2 色泽=青绿,根蒂=*,敲声=*
3 色泽=乌黑,根蒂=*,敲声=*
4 色泽=*,根蒂=蜷缩,敲声=*
5 色泽=*,根蒂=硬挺,敲声=*
6 色泽=*,根蒂=稍蜷,敲声=*
7 色泽=*,根蒂=*,敲声=浊响
8 色泽=*,根蒂=*,敲声=清脆
9 色泽=*,根蒂=*,敲声=沉闷
10 色泽=青绿,根蒂=蜷缩,敲声=*
11 色泽=青绿,根蒂=硬挺,敲声=*
12 色泽=青绿,根蒂=稍蜷,敲声=*
13 色泽=乌黑,根蒂=蜷缩,敲声=*
14 色泽=乌黑,根蒂=硬挺,敲声=*
15 色泽=乌黑,根蒂=稍蜷,敲声=*
16 色泽=青绿,根蒂=*,敲声=浊响
17 色泽=青绿,根蒂=*,敲声=清脆
18 色泽=青绿,根蒂=*,敲声=沉闷
19 色泽=乌黑,根蒂=*,敲声=浊响
20 色泽=乌黑,根蒂=*,敲声=清脆
21 色泽=乌黑,根蒂=*,敲声=沉闷
22 色泽=*,根蒂=蜷缩,敲声=浊响
23 色泽=*,根蒂=蜷缩,敲声=清脆
24 色泽=*,根蒂=蜷缩,敲声=沉闷
25 色泽=*,根蒂=硬挺,敲声=浊响
26 色泽=*,根蒂=硬挺,敲声=清脆
27 色泽=*,根蒂=硬挺,敲声=沉闷
28 色泽=*,根蒂=稍蜷,敲声=浊响
29 色泽=*,根蒂=稍蜷,敲声=清脆
30 色泽=*,根蒂=稍蜷,敲声=沉闷
31 色泽=青绿,根蒂=蜷缩,敲声=浊响
32 色泽=青绿,根蒂=蜷缩,敲声=清脆
33 色泽=青绿,根蒂=蜷缩,敲声=沉闷
34 色泽=青绿,根蒂=硬挺,敲声=浊响
35 色泽=青绿,根蒂=硬挺,敲声=清脆
36 色泽=青绿,根蒂=硬挺,敲声=沉闷
37 色泽=青绿,根蒂=稍蜷,敲声=浊响
38 色泽=青绿,根蒂=稍蜷,敲声=清脆
39 色泽=青绿,根蒂=稍蜷,敲声=沉闷
40 色泽=乌黑,根蒂=蜷缩,敲声=浊响
41 色泽=乌黑,根蒂=蜷缩,敲声=清脆
42 色泽=乌黑,根蒂=蜷缩,敲声=沉闷
43 色泽=乌黑,根蒂=硬挺,敲声=浊响
44 色泽=乌黑,根蒂=硬挺,敲声=清脆
45 色泽=乌黑,根蒂=硬挺,敲声=沉闷
46 色泽=乌黑,根蒂=稍蜷,敲声=浊响
47 色泽=乌黑,根蒂=稍蜷,敲声=清脆
48 色泽=乌黑,根蒂=稍蜷,敲声=沉闷
49 Ø
以上49种情况就是‘好瓜’的假设空间
根据已知数据集:
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
1 | 青绿 | 蜷缩 | 浊响 | 是 |
2 | 乌黑 | 蜷缩 | 浊响 | 是 |
3 | 青绿 | 硬挺 | 清脆 | 否 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
根据数据集中编号1的情况,可以将样本空间中3、5、6、8、9、11-15、17-21、23-30、32-49删除,互相矛盾。
根据数据集中编号2的情况,可以将剩余样本空间中2、10、16、31删除。
根据数据集中编号3的情况,可以将剩余样本空间中1删除。
根据数据集中编号4的情况,没有可以删除的了。
所以学习过后的版本空间为
4 色泽=*,根蒂=蜷缩,敲声=*
7 色泽=*,根蒂=*,敲声=浊响
22 色泽=*,根蒂=蜷缩,敲声=浊响
也就是书上图1.2的内容。
三、一些理解
在删除假设空间时根据数据集中编号1删除的会比较多,因为是要寻找能够描述好瓜的特征,只要和编号1中的内容想冲突就要删掉,看到有些帖子下面在问”为什么假设空间里把数据集里的好瓜去掉?“我认为这是在寻求一个能描述好瓜的特征,而假设空间中数据集中的好瓜只能描述数据集中的一个值,但是和数据集中其他的值冲突了,所以要删除掉。
最后放一个图:
对于二维空间中的“矩形”假设(上图),绿色加号代表正类样本,红色小圈代表负类样本。 GB 是最大泛化正假设边界(maximally General positive hypothesis Boundary), SB 是最大精确正假设边界(maximally Specific positive hypothesis Boundary). GB与SB所围成的区域中的矩形即为版本空间中的假设,也即GB与SB围成的区域就是版本空间,也就是中间绿色线条所构成的空间。