《机器学习》——关于假设空间与版本空间

第一章绪论就抛出一堆概念,看到假设空间与样本空间有点懵,查了一些资料才大概了解,记录一下。

一、基本概念

    假设空间:机器学习中可能的函数构成的空间称为“假设空间”。(百度百科的概念)

    我的理解是:针对某一个问题,所有可能存在的情况的集合,比如说书上的西瓜问题,西瓜的特征有三个,色泽、根蒂、敲声,这三个特征可以用来描述一个西瓜,已知的特征中色泽有两种,根蒂有三种,敲声有三种,根据排列组合是有18种情况,但是其他的西瓜可能并不局限于这18种情况,我们是要找到能够描述好瓜的特征,有可能只要敲起来浊响,无论根蒂和色泽是什么样的都是好瓜,也有可能不存在好瓜,三个特征都是空。

    版本空间:是概念学习中与已知数据集一致的所有假设的子集集合。假设空间考虑了所有的情况,但是其中的一些情况与已知的数据集不一致,比如在已知的数据集中是存在好瓜的概念,所以假设空间中的Ø就属于版本空间的。

二、西瓜问题

     根据西瓜问题,假设空间应该如下所示:

1 色泽=*,根蒂=*,敲声=*

2 色泽=青绿,根蒂=*,敲声=*

3 色泽=乌黑,根蒂=*,敲声=*

4 色泽=*,根蒂=蜷缩,敲声=*

5 色泽=*,根蒂=硬挺,敲声=*

扫描二维码关注公众号,回复: 10906926 查看本文章

6 色泽=*,根蒂=稍蜷,敲声=*

7 色泽=*,根蒂=*,敲声=浊响

8 色泽=*,根蒂=*,敲声=清脆

9 色泽=*,根蒂=*,敲声=沉闷

10 色泽=青绿,根蒂=蜷缩,敲声=*

11 色泽=青绿,根蒂=硬挺,敲声=*

12 色泽=青绿,根蒂=稍蜷,敲声=*

13 色泽=乌黑,根蒂=蜷缩,敲声=*

14 色泽=乌黑,根蒂=硬挺,敲声=*

15 色泽=乌黑,根蒂=稍蜷,敲声=*

16 色泽=青绿,根蒂=*,敲声=浊响

17 色泽=青绿,根蒂=*,敲声=清脆

18 色泽=青绿,根蒂=*,敲声=沉闷

19 色泽=乌黑,根蒂=*,敲声=浊响

20 色泽=乌黑,根蒂=*,敲声=清脆

21 色泽=乌黑,根蒂=*,敲声=沉闷

22 色泽=*,根蒂=蜷缩,敲声=浊响

23 色泽=*,根蒂=蜷缩,敲声=清脆

24 色泽=*,根蒂=蜷缩,敲声=沉闷

25 色泽=*,根蒂=硬挺,敲声=浊响

26 色泽=*,根蒂=硬挺,敲声=清脆

27 色泽=*,根蒂=硬挺,敲声=沉闷

28 色泽=*,根蒂=稍蜷,敲声=浊响

29 色泽=*,根蒂=稍蜷,敲声=清脆

30 色泽=*,根蒂=稍蜷,敲声=沉闷

31 色泽=青绿,根蒂=蜷缩,敲声=浊响

32 色泽=青绿,根蒂=蜷缩,敲声=清脆

33 色泽=青绿,根蒂=蜷缩,敲声=沉闷

34 色泽=青绿,根蒂=硬挺,敲声=浊响

35 色泽=青绿,根蒂=硬挺,敲声=清脆

36 色泽=青绿,根蒂=硬挺,敲声=沉闷

37 色泽=青绿,根蒂=稍蜷,敲声=浊响

38 色泽=青绿,根蒂=稍蜷,敲声=清脆

39 色泽=青绿,根蒂=稍蜷,敲声=沉闷

40 色泽=乌黑,根蒂=蜷缩,敲声=浊响

41 色泽=乌黑,根蒂=蜷缩,敲声=清脆

42 色泽=乌黑,根蒂=蜷缩,敲声=沉闷

43 色泽=乌黑,根蒂=硬挺,敲声=浊响

44 色泽=乌黑,根蒂=硬挺,敲声=清脆

45 色泽=乌黑,根蒂=硬挺,敲声=沉闷

46 色泽=乌黑,根蒂=稍蜷,敲声=浊响

47 色泽=乌黑,根蒂=稍蜷,敲声=清脆

48 色泽=乌黑,根蒂=稍蜷,敲声=沉闷

49 Ø

  以上49种情况就是‘好瓜’的假设空间

  根据已知数据集:

编号 色泽 根蒂 敲声 好瓜
1 青绿 蜷缩 浊响
2 乌黑 蜷缩 浊响
3 青绿 硬挺 清脆
4 乌黑 稍蜷 沉闷

  根据数据集中编号1的情况,可以将样本空间中3、5、6、8、9、11-15、17-21、23-30、32-49删除,互相矛盾。

  根据数据集中编号2的情况,可以将剩余样本空间中2、10、16、31删除。

  根据数据集中编号3的情况,可以将剩余样本空间中1删除。

  根据数据集中编号4的情况,没有可以删除的了。

所以学习过后的版本空间为

  4 色泽=*,根蒂=蜷缩,敲声=*

  7 色泽=*,根蒂=*,敲声=浊响

  22 色泽=*,根蒂=蜷缩,敲声=浊响

也就是书上图1.2的内容。

三、一些理解

         在删除假设空间时根据数据集中编号1删除的会比较多,因为是要寻找能够描述好瓜的特征,只要和编号1中的内容想冲突就要删掉,看到有些帖子下面在问”为什么假设空间里把数据集里的好瓜去掉?“我认为这是在寻求一个能描述好瓜的特征,而假设空间中数据集中的好瓜只能描述数据集中的一个值,但是和数据集中其他的值冲突了,所以要删除掉。

最后放一个图:

对于二维空间中的“矩形”假设(上图),绿色加号代表正类样本,红色小圈代表负类样本。 GB 是最大泛化正假设边界(maximally General positive hypothesis Boundary), SB 是最大精确正假设边界(maximally Specific positive hypothesis Boundary). GB与SB所围成的区域中的矩形即为版本空间中的假设,也即GB与SB围成的区域就是版本空间,也就是中间绿色线条所构成的空间。

发布了17 篇原创文章 · 获赞 0 · 访问量 3231

猜你喜欢

转载自blog.csdn.net/qq_31874075/article/details/88744197