智能文字识别是 AI 领域的一个重要分支,该技术融合了智能图像处理、基于深度学习的复杂场景文字识别、自然语言处理(NLP)等多项 AI 技术,算法涉及机器学习与深度学习。
1)机器学习与深度学习
机器学习是 AI 的一种底层算法,深度学习是机器学习的一个子集。机器学习的算法是建立在一个样本数据集上,在没有明确编程指示下,依靠模式和推理做出预测或决策的数学模型,且可随着数据量的增加不断改进算法性能。深度学习是机器学习方法系列的一部分,利用多层神经网络从大量数据中进行学习。机器学习在处理问题时,需要先人工进行特征提取,然后根据提取后的特征进行分类问题求解;深度学习将特征提取与分类问题求解汇总在一个神经网络模型中,只需一次输入即可得到最终的输出结果,无需手工获取特征,所以能解决更为复杂的问题,且由数据驱动,有效数据量越大,模型的表现越好。
随着深度学习出现,AI 算法瓶颈逐步被突破。机器从海量数据库自行归纳物体特征,按照该特征规律识别物体,图文识别的精准度得到极大提升。
2)自然语言处理技术
自然语言处理(Natural Language Processing,简称为“NLP”)技术是AI的一个子领域,用于分析、理解和生产自然语言,NLP技术实现机器与人沟通的大前提,决定了机器对语言的理解能力。机器学习与深度学习大大推动了NLP技术的发展,使其具备可表达性、可训练性以及可泛化性。
3)结合深度学习、NLP的智能文字识别技术
将图像中的文字转变为机器可读可处理的字符信息,是机器与现实世界进行视觉交互的重要基础,催生了光学字符识别(Optical Character Recognition,简称为“OCR”)技术。根据中国信息通信研究院、中国人工智能产业发展联盟与腾讯集团联合发布的《智能文字识别(OCR)能力测评与应用白皮书》,早期的OCR技术可追溯到1870年,电报技术和为盲人设计的阅读设备的出现标志着OCR技术的诞生。从2000年开始,在线服务成为OCR的主要业务形态之一,这一阶段OCR技术仅在比较规整的印刷体文档识别上性能良好。2014年以来,随着深度学习技术在OCR领域的应用,加上海量训练数据的积累,OCR取得了飞跃性发展,适用范围明显扩大。2017年以来,OCR技术越来越多的和自然语言处理技术相融合,形成了智能文字识别技术,增强了对内容的“理解”能力,通过语义信息的关联,复杂场景下的文字识别能力得到增强。与此同时,随着图像处理等技术的发展,能够将扭曲和畸变的文字图像进行矫正,也能够改善OCR性能。OCR通过图像文字的识别实现信息录入,有两大核心优势,一是提高效率,相比传统的人工方式,显著提升信息录入效率;二是降低成本,通过机器代替人工,可大幅降低人力成本的开销。因此OCR技术具有较高的实际应用价值,是AI应用中商业推广落地较快的领域,是AI领域的重要分支。
《中国禁止出口限制出口技术目录》已将“印刷体汉字识别技术、程序结构、主要算法和源程序、具有交互和自学习功能的脱机手写汉字识别系统及方法、汉字识别的特征抽取方法和实现文本切分技术的源程序”等纳入限制出口的信息处理技术范围。为落实国务院印发的《新一代人工智能发展规划》,科技部启动了实施科技创新2030“新一代人工智能”重大项目,并提出2020年度第一批项目申报指南,其中“复杂版面手写图文识别及理解关键技术研究”被列入“新一代人工智能共性关键技术”。
传统OCR技术针对特定场景的文字图像进行建模,受限于手工设计特征的单一表达能力和复杂的处理流程,一旦跳出当前场景,遇到复杂场景,模型就会失效。而基于深度学习、NLP的智能文字识别技术可解决传统OCR的缺点,灵活应对自然场景下多形态文本以及手写文本。
二、行业概况
相比传统简单文字识别,智能文字识别技术融合图像处理、OCR、深度学习、NLP等AI技术,具备更多认知与理解能力,可适应多语言、多版式、多样式等复杂场景,识别准确率大大提升,同时可基于理解能力进一步开发文档解析、分类、对比、审核等功能,是个人文档资产管理与企业数字化转型的关键。
从个人用户角度,用户对个人文档资产管理数字化意识和需求不断增强,合同、名片、发票、笔记等非结构化的纸质文档通过智能文字识别技术数字化后,用户可随时随地在手机、电脑等多终端进行查询、管理及分享,解决了纸质文档不易存储、分类、查询或提取关键信息等痛点,满足个人的办公、求职、学习等不同场景的需求。
从企业客户角度,企业数字化转型是将数字技术进行商业化落地,从根本上对业务流程进行优化,智能文字识别技术可将企业运营过程中产生的大量非结构化、非标准化的文档数据进行提取、存储、转化、解析,为企业客户节省人力成本,提升运营效率,解决了众多行业存在的人工操作效率低、业务处理流程长,将迎来巨大发展空间。根据Grand View Research报告,全球智能文字识别服务市场规模2022年达106.5亿美元,预计2022-2027年复合年均增长率约16.7%。
从下游行业应用来看,金融、物流运输的市场规模是占比最高的两个细分行业,且增速也最快,主要由于金融、物流运输企业在业务流程方面的基础信息化建设程度、投入意愿相对其他行业来说相对较高,在证照、单据、表格等文档的智能录入、分类、比对、审核方面进行降本增效具有较大需求,为智能文字识别技术的商业化快速落地带来基础。
分国别来看,2022年,亚太区智能文字识别服务市场规模占全球比重约为22.7%,2022-2027年复合年均增长率预计为全球最高水平,达19.4%。亚太区的高速增长原因主要为:1)中国、印度等部分国家经济的高速增长,经济活动的增长一定程度带来文档数据与信息量的增长,政府、企业对经济活动中产生的文档进行电子化存储、数据提取、分析挖掘具有巨大需求;2)亚太区域互联网、智能手机的高速发展推动数据量爆发式增长,智能文字识别作为数字资产管理的关键技术,拥有巨大发展前景;3)亚太区近年来对于AI技术研发、产业智能升级的重视,促使智能文字识别技术持续提升,以及推动企业对于此服务的投入。相比北美、欧洲等发达国家和地区,亚太区智能文字识别行业尚处于发展初期,处于高速发展时期。根据相关数据,2022年,中国智能文字识别服务市场规模为人民币50.4亿元,预计2027年市场规模将达人民币168.9亿元,复合年均增长率达27.3%,远超全球市场总增速。