文末附基于Python和C++两种方式实现的测试代码下载链接
对象检测器的输出是图像或视频帧中检测到的对象周围的边界框数组,但我们没有得到有关边界框内对象形状的任何线索。
如果我们能找到包含对象而不仅仅是边界框的二进制掩码,那不是很酷吗?
在这篇文章中,我们将学习如何做到这一点。我们将展示如何使用称为 Mask RCNN(基于区域的卷积神经网络)的卷积神经网络 (CNN) 模型进行对象检测和分割。使用 Mask-RCNN,我们不仅检测对象,还获得包含对象的灰度或二值掩模。
本教程中的结果是使用 Mac OS 2.5 GHz Intel Core i7 CPU获得的。CPU 上每帧的推理时间为350 毫秒到 2 秒,具体取决于帧中对象的复杂性和数量。