0 概述

基于分割的文本检测算法，后处理是必须的，将概率图转成文本框（区域）。DB算法在分割网络中执行一个二值化处理。随着DB模块的优化，分割网络可以自动设置二值化阈值，不仅简化了后处理而且增强了性能。

补充：F-measure 即：
$F_1=\frac {2 * PR}{ P + R}$
P 是精确率（Precision），R是召回率（Recall）。

1 介绍

当前大部分检测算法都是使用如下流程：

（1）设置一个固定的阈值，将概率图转成二值图。

（2）然后一些启发式的方法通过聚类得到文本区域。

而这篇论文里的流程是插入一个二值化操作放到分割网络里来一起优化。在这种方式下，每个像素的阈值将自适应预测，更能区分前景背景。标准的二值化函数是不可微分的，我们使用一个近似的二值化函数，称为DB。

相比之前基于方法的方法有四个优点：

优点：基于回归的方法，后处理简单。

缺点：很难表示不规则的形状，例如弯曲文本。

可微二值化不仅能区分文本区域和背景，而且把邻近的文本区域也分开。
$\hat B_{i,j}=\frac 1 {1 + e^{-k(P_{i,j}-T_{i,j})}} = \frac 1 {1 + e^{-kx}}= \frac {e^{kx}} {1 + e^{kx}}$

其中：
$x =P_{i,j}-T_{i,j}$

损失函数：
$l_+=-log\frac 1 {1 + e^{-kx}} = log(1 + e^{-kx})$

$l_-=-log(1-\frac 1 {1 + e^{-kx}})=-log(\frac {e^{-kx}}{1+e^{-kx}}) = -log(\frac{1}{1 + e^{kx}}) = log(1+e^{kx})$

后边的式子是我加的，简化上边的公式后对数函数里没有分式，后边求导就变得容易多了。
$\frac {\partial l_+} {\partial x} = -kf(x)e^{-kx}$

$\frac {\partial l_-} {\partial x} = kf(x)$