西瓜书课后答案Chapter1

1.1求版本空间

首先看版本空间的定义，这篇文章写的很好

http://blog.csdn.net/qq_18433441/article/details/55682732

概况说来，版本空间就是从假设空间剔除了与正例不一致和与反例一致的假设，它可以看成是对正例的最大泛化。

现在只有西瓜1和西瓜4两个样本：
西瓜1（（色泽＝青绿、根蒂＝蜷缩、敲声＝浊响），好瓜））为正例，找到假设空间中和它一致的假设：1,2,4,7,10,16,22,31
西瓜4（（色泽＝乌黑、根蒂＝稍蜷、敲声＝沉闷），坏瓜）为反例，找到假设空间中和它一致的假设：1,3，6,9,15,21,30,48
从西瓜1的结果，去除西瓜4的结果，得到版本空间：2,4,7,10,16,22,31

1.2与使用单个合取式来进行假设表示相比，使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达1.1的西瓜分类问题的假设空间，试估算有多少种可能的假设。

http://blog.csdn.net/icefire_tyh/article/details/52065626

1.3.若数据包含噪声，则假设空间中可能不存在与所有训练样本都一致的假设。在此情形下，试设计一种归纳偏好用于假设选择

通常认为两个数据的属性越相近，则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类，则认为它属于与他最临近几个数据的属性。也可以考虑同时去掉所有具有相同属性而不同分类的数据，留下的数据就是没误差的数据，但是可能会丢失部分信息。

1.4.本章1.4节在论述“没有免费的午餐”定理时，默认使用了“分类错误率”作为性能度量来对分类器进行评估。若换用其他性能度量l,试证明没有免费的午餐”定理仍成立

还是考虑二分类问题，NFL首先要保证真是目标函数f均匀分布，对于有X个样本的二分类问题，显然f共有2X种情况。其中一半是与假设一致的，也就 P(f(x)=h(x))=0.5。
此时， ∑fl(h(x),f(x))=0.5∗2X∗(l(h(x)=f(x))+l(h(x)≠f(x)))
l(h(x)=f(x))+l(h(x)≠f(x))应该是个常数，隐含的条件就该是(一个比较合理的充分条件) l(0,0)=l(1,1),l(1,0)=l(0,1)。如果不满足， NFL 应该就不成立了(或者不那么容易证明)。

1.5.试述机器学习在互联网搜索的哪些环节起什么作用

1.消息推送。比如当我搜索“机器学习”之后，再打开某些网页的时候，会推送有关机器学习培训的广告
2.网站相关度排行，通过点击量，网页内容进行综合分析。
3.图片搜索，现在大部分还是通过标签来搜索，不过基于像素的搜索也总会有的吧。