上QQ阅读APP看书，第一时间看更新

前言

文字作为人类传播文明、传递信息、记录思想的重要载体，在我们的生活中占据着举足轻重的地位，所以文字识别是目前最受关注的AI技术之一。OCR技术应用非常广泛，相较于图像，文字作为抽象的符号，承载着大量的信息，所以识别文字有非常大的价值。从历史角度看，文字识别是一门古老的技术，但是从实验室走出来，走进人们的生活，也只是近些年才发生的事情。特别是在深度学习应用于文字识别领域后，文字识别精度逼近人工水平，发展出非常多的应用。

笔者作为机器视觉方面的从业者，在刚开始将最新的深度学习技术应用到文字识别时遇到很多困难，常常苦恼于市面上鲜有全面介绍文字识别实现原理和方法的资料，特别是中文书籍，即使有，所介绍的技术也非常落后，远远脱离产业以及学术前沿。随着自己不断地学习和尝试，在反复试错以及与同行交流后，慢慢掌握了其中的方法。为了帮助更多与我有相似经历的人，我们几位同事把基于深度学习的OCR方法整理出来，希望能帮助更多相关从业人员。

本书从OCR的出现讲到中间经历的传统技术，再到最新的基于深度学习的技术，同时根据OCR常用技术流程——从数据、模型对文字的定位、识别到后处理等，对OCR技术做了一个深度梳理，带领读者进入一个引人入胜的文字识别智能世界，领略各种神经网络的魅力及挑战。

全书总共有10章，逻辑上分为四个部分。

第一部分（第1～3章），主要介绍传统OCR技术。

第二部分（第4～6章），主要介绍OCR中一些基础的组件和方法。

第三部分（第7～8章），主要跟踪前沿的文字检测和文字识别技术。

第四部分（第9～10章），主要介绍一些常用的后处理方法和版面分析方法。

本书在内容上尽可能涵盖了OCR领域的基础知识，在合著伙伴的组成上，有学术界第一梯队的青年学者，同时也有产业界一线从业者，希望尽可能实现理论与实践并重。