【实战篇】用Python实现机器视觉应用程序

作者:禅与计算机程序设计艺术

近年来,人工智能领域备受关注。近几年来,随着深度学习、强化学习等技术的不断涌现,以及计算机视觉、自然语言处理等方向的突破性进展,人工智能在各个行业都扮演了越来越重要的角色。而作为一个专业的开发者,如何通过编程的方式来解决复杂的问题也是每一个从事AI相关工作的人不可或缺的技能。因此,掌握Python编程语言是成为一名优秀的机器视觉开发人员的必备条件。本系列文章将以场景文字识别系统(Scene Text Recognition)为例,详细阐述如何利用Python实现基于深度学习的方法进行场景文字识别。

场景文字识别(Scene Text Recognition, SCR)系统的目的是识别图像中的文字,而这一任务实际上是一个图像识别任务。它可以应用到诸如搜索引擎、导航系统、视频监控、智能门锁等领域。SCR系统一般由两部分组成,即文本检测和文本识别。文本检测组件负责定位图像中的所有文字区域,并输出相应坐标信息;文本识别组件则根据每个文字区域的坐标信息对其进行识别。

一般来说,有两种方法可以用于实现SCR系统:一种是传统的基于规则的手工特征工程方法,另一种是采用机器学习的方法。前者需要比较高的准确率,但难以适应变化剧烈的字体及光照条件;后者可以自动提取图像中的语义信息,取得较好的效果,但是同时也面临着很多技术上的挑战。

在本系列教程中,我将以深度学习模型MobileNetV3作为文本检测的骨干网络,并采用Hieratical RNN+CTC的序列标注法进行文本识别。本文假定读者对深度学习、Python编程有基本的了解。如果你对上述内容很感兴趣,希望通过本文的学习与实践,能够帮助你快速入门并落地自己的应用。

2.基本概念术语说明

MobileNet V

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/131862765