前言
文字作为人类传播文明、传递信息、记录思想的重要载体,在我们的生活中占据着举足轻重的地位,所以文字识别是目前最受关注的AI技术之一。OCR技术应用非常广泛,相较于图像,文字作为抽象的符号,承载着大量的信息,所以识别文字有非常大的价值。从历史角度看,文字识别是一门古老的技术,但是从实验室走出来,走进人们的生活,也只是近些年才发生的事情。特别是在深度学习应用于文字识别领域后,文字识别精度逼近人工水平,发展出非常多的应用。
笔者作为机器视觉方面的从业者,在刚开始将最新的深度学习技术应用到文字识别时遇到很多困难,常常苦恼于市面上鲜有全面介绍文字识别实现原理和方法的资料,特别是中文书籍,即使有,所介绍的技术也非常落后,远远脱离产业以及学术前沿。随着自己不断地学习和尝试,在反复试错以及与同行交流后,慢慢掌握了其中的方法。为了帮助更多与我有相似经历的人,我们几位同事把基于深度学习的OCR方法整理出来,希望能帮助更多相关从业人员。
本书从OCR的出现讲到中间经历的传统技术,再到最新的基于深度学习的技术,同时根据OCR常用技术流程——从数据、模型对文字的定位、识别到后处理等,对OCR技术做了一个深度梳理,带领读者进入一个引人入胜的文字识别智能世界,领略各种神经网络的魅力及挑战。
全书总共有10章,逻辑上分为四个部分。
第一部分(第1~3章),主要介绍传统OCR技术。
第二部分(第4~6章),主要介绍OCR中一些基础的组件和方法。
第三部分(第7~8章),主要跟踪前沿的文字检测和文字识别技术。
第四部分(第9~10章),主要介绍一些常用的后处理方法和版面分析方法。
本书在内容上尽可能涵盖了OCR领域的基础知识,在合著伙伴的组成上,有学术界第一梯队的青年学者,同时也有产业界一线从业者,希望尽可能实现理论与实践并重。