AI平台中图像识别-OCR识别
图像识别目前应用最广泛的差不多就是OCR识别了,AI平台可以做的就是通过前端的数据训练到整个模型产出。
OCR文字识别分类
OCR文字识别主要可以分为:印刷体文字识别和手写体文字识别
传统的OCR识别过程及问题
下图中列出了整个传统OCR识别的过程,其中最关键的模块儿就在于预处理这个过程,这个过程绝大程度决定了OCR识别最后的识别率。
传统的OCR识别会存在很多的问题,比如如下图中列出的几点,图像场景适应性受局限,仅适用于清晰的扫描图像对于一些比较模糊有污损及变形的图像就比较难处理了。版面分析复杂通用性比较差,每一种识别都需要独立的版面分析算法,开发成本是比较高的。再加上整个算法流程是比较复杂的,累计误差比较大,由于这些原因造成了整体维护成本是比较高。
基于深度学习的OCR识别
在图像分类这一环节,深度学习通过CNN网络特征、OCR文字识别、双重规则分类等方式,用于图像识别的特征提取,
特征提取
是从单个字符图像上提取统计特征或结构特征的过程。所提取的特征的稳定性及有效性,决定了识别的性能。对于统计特征的提取,可利用统计模式识别中的特征提取方法,而对结构特征的提取,应根据具体文字所确定的识别基元确定相应的特征提取方法。在相当长的文字识别的研究过程中,是利用人们的经验知识,指导文字特征的提取。例如边缘特征、变换特征、穿透特征、网格特征、特征点特征、方向线素特征等等。
深度学习已经成功应用于OCR领域,深度学习的发展替代了繁重的特征工程,从大量标记预料中自动学习出图像的特征,其中CNN(卷积神经网络)尤为抢眼,除了省去人工特征提取的流程外,共享权值的方式也减少了权值数量,大幅减少了计算开销,它的两大优势使得CNN在OCR领域表现十分卓越。
深度学习的OCR的优势主要突出表现在,识别准确率更高,字符识别率稳定在98%-99%,抗干扰能力更强以及使用的场景也更广泛。
基于AI平台的OCR图像识别
AI平台主要的优势在于模型的快速训练,通过平台本身的自有优势,我们可以基于平台快速训练出符合银行业务场景的OCR识别模块儿。平台作为场景能力的支撑,快速迭代的OCR模型将发挥更多的应用。