统计学习方法都是由模型,策略,和算法构成的,即统计学习方法由三要素构成,可以简单表示为:
对于logistic回归来说,模型自然就是logistic回归,策略最常用的方法是用一个损失函数(loss function)或代价函数(cost function)来度量预测错误程度,算法则是求解过程
模型:
模型见西瓜书P59.
损失函数:
logistic回归算法使用的是对数似然损失函数:
其中, 是指(参考西瓜书P59)。当y=1时,假定这个样本为正类。如果此时(假设的极限情况),则单对这个样本而言的cost=0,表示这个样本的预测完全准确。那如果所有样本都预测准确,总的cost=0 。但是如果此时预测的概率,那么当y=0时,推理过程跟上述完全一致,不再累赘。
将损失函数合并为一个,即可得到单个样本的损失函数:
推广到全体样本的损失函数:
上式又被称为交叉熵损失函数,该式子是西瓜书P59页式3.27的另一种表达方式。
接下来就是最小化损失函数,求解参数的过程。
参数求解:
对loss函数求导得到:
,其中是指w和b。
接下来只需根据梯度下降法就可以求得参数的解。
预测:
如果需要预测一个为止数据x,属于那个类,只需要带入(即指logistic回归的模型),最简单的决策方法,如果(即)大于等于0.5属于类别1,反之属于类别0,当然也可以属于其他的决策方法。
参考:https://blog.csdn.net/bitcarmanlee/article/details/51165444 ,感谢作者
参考:https://blog.csdn.net/danieljianfeng/article/details/41901063, 感谢作者
参考:《机器学习_周志华》