[转载] 用人话解释机器学习中的Logistic Regression（逻辑回归）

写的真的是太好了，那句说人话真是直戳我心

转载地址如下，感谢作者

https://www.codelast.com/%E5%8E%9F%E5%88%9B-%E7%94%A8%E4%BA%BA%E8%AF%9D%E8%A7%A3%E9%87%8A%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E4%B8%AD%E7%9A%84logistic-regression%EF%BC%88%E9%80%BB%E8%BE%91%E5%9B%9E%E5%BD%92%EF%BC%89/

内容：

转载请注明出处：http://www.codelast.com/
友情提示：如果觉得页面中的公式显示太小，可以放大页面查看（不会失真）。

Logistic Regression（或Logit Regression），即逻辑回归，简记为LR，是机器学习领域的一种极为常用的算法／方法／模型。
你能从网上搜到十万篇讲述Logistic Regression的文章，也不多我这一篇，但是，就像我写过的最优化系列文章一样，我仍然试图用“人话”来再解释一遍——可能不专业，但是容易看得懂。那些一上来就是几页数学公式什么的最讨厌了，不是吗？
所以这篇文章是写给完全没听说过Logistic Regression的人看的，我相信看完这篇文章，你差不多可以从无到有，把逻辑回归应用到实践中去。

Logistic Regression是一种分类算法。分类，也就是把一个群体（或问题，或数据）分为几个类别，例如，男/女/人妖；爱她的人/不爱她的人；今天会下雨/今天不会下雨。
Logistic Regression最常用于处理“二分类”问题，也就是说分类只有两个，像“爱她的人/不爱她的人”就是二分类，而“男/女/人妖”就不是二分类。当然，Logistic Regression也可以用于处理多分类问题，即所谓的“多分类逻辑回归”（Multiclass Logistic Regression），但本文并不涉及这个方面。
所以，说得简单点就是，给你一条数据，用Logistic Regression可以判断出这条数据应该被分到两个类别中的哪个中去。
文章来源：http://www.codelast.com/
Logistic Regression在现实世界中非常有用。例如，可以用它来判断一个用户是否会点击一个广告（会点击／不会点击），可以用Logistic Regression来判断两类人是否会相爱（会相爱／不会相爱），等等。

机器学习的主旨就是通过对历史数据的计算（即“学习”），得到一些未知参数的值，从而可以推断出新数据会有什么结论。例如一个非常简单的函数：

(1, 5.5)
(1.5, 7)
(2, 6.5)

我们怎样能够预测一个未知的自变量

文章来源： http://www.codelast.com/
通过这个WiKi页面你可以知道，其实所谓的逻辑函数，就是这样的一个函数：

在各种机器学习的文章中，你都会看到，它们给了逻辑函数一个常用的名字：Sigmoid函数。sigmoid，意为“S形的”，这正符合其函数图像特点，所以大家记住就行了。
文章来源：http://www.codelast.com/
现在，我们已经有了函数，下一步任务就是求出函数表达式中的未知参数向量

(1, 5.5)
(1.5, 7)
(2, 6.5)

你无论如何也不可能找到一对

这条直线如果要精确地通过其中的两个点，那么就不能通过第三个点。所以，最终求出来的

损失函数／Loss Function／代价函数／Cost Function

很多文章说，这几个名词的含义是一样的。但是也有文章说，Loss Function和Cost Function不是一回事，例如这篇文章。但通常认为，这二者是一回事。我觉得嘛，大家就按通常的概念来接受就好了。
按 WiKi的定义：

In mathematical optimization, statistics, decision theory and machine learning, a loss function or cost function is a function that maps an event or values of one or more variables onto a real number intuitively representing some "cost" associated with the event. An optimization problem seeks to minimize a loss function.

以及：

The loss function quantifies the amount by which the prediction deviates from the actual values.

我们可以知道，损失函数用于衡量预测值与实际值的偏离程度，如果预测是完全精确的，则损失函数值为0；如果损失函数值不为0，则其表示的是预测的错误有多糟糕。使得损失函数值最小的那些待求参数值，就是“最优”的参数值。
文章来源： http://www.codelast.com/
所以现在问题来了，损失函数的表达式又是什么？
在探讨损失函数的表达式之前，我们先来看一下损失函数有哪些种类。
损失函数有很多种，例如下面几个：
（1）0-1损失函数：可用于分类问题，即该函数用于衡量分类错误的数量，但由于此损失函数是非凸（non-convex）的，因此在做最优化计算时，难以求解，所以，正因为如此，0-1损失函数不是那么“实用”（如果这句话有误，请指正）。
（2）平方损失函数（Square Loss）：常用于线性回归（Linear Regression）。
（3）对数损失（Log Loss）函数：常用于其模型输出每一类概率的分类器（classifier），例如逻辑回归。
（4）Hinge损失函数：常用于SVM（Support Vector Machine，支持向量机，一种机器学习算法）。中文名叫“合页损失函数”，因为hinge有“合页”之意。这个翻译虽然直白，但是你会发现，99％的文章都不会用它的中文名来称呼它，而是用“Hinge损失”之类的说法。

这些都是人们的经验总结，当然，说每一种损失函数常用于什么机器学习算法，也都是有数学依据的。但是在这里，我们讲的是Logistic Regression，所以只看对数损失函数。对数损失函数通常用于衡量分类器（classifier）的精度，这里的“分类器”也就是指机器学习的模型，它对每一个类别输出一个概率值。从前面的文章中，我们已经知道了，逻辑回归就是这样一种分类器，所以才用对数损失函数来衡量其精度。
有时候，对数损失函数（Log Loss）也被叫作交叉熵损失函数（Cross-entropy Loss）。交叉熵这个名字比较拗口，在信息理论中，熵用于衡量某种事件的“不可预测性”，而交叉熵=事件的真实分布+不可预测性，所以交叉熵可以用于度量两个概率分布（真实分布&预测分布）之间的差异性，即：交叉熵损失函数（对数损失函数）可以衡量一个模型对真实值带来的额外噪音，通过最小化交叉熵损失函数（对数损失函数），我们就可以最大化分类器（模型）的精度。
上面这一大段话试图用简单的描述让你相信，为什么要用Log Loss来衡量Logistic Regression的误差，但是没有给出证明。有人可能会说，为什么不能用其他的方法来衡量，例如用平方损失函数（Square Loss）。事实上，这是有数学依据的——它会导致损失函数是一个关于参数向量

求解方法

所以现在问题来了，这个“最优”的参数向量

求解的过程就是一个最优化的过程，本文无法用一两句话描述清楚，请大家移步链接进行阅读。

事实上，在现在各种机器学习library百花齐放的今天，我们基本上不需要自己编写这些算法的具体实现，只需要调用它们即可。例如，通过Spark的Machine Learning Library (MLlib)，我们可以直接使用Stochastic gradient descent (SGD)，Limited-memory BFGS (L-BFGS)等实现。但是对这背后的原理有所了解，对工作学习是有帮助的。

[转载] 用人话解释机器学习中的Logistic Regression（逻辑回归）

猜你喜欢