首页
核心技术
产品体系
解决方案
动态资讯
关于我们
搜索
首页 动态资讯 公司新闻

北京卫视专访易道博识:拥抱深度学习OCR,从服务器端到移动端

来源:易道博识 发布时间:2022-06-20

自2021服贸会召开以来,北京卫视一直在对会中涌现的服务创新型企业进行深入关注。10月17日,在北京卫视的财经频道中,播出了易道博识联合创始人兼首席技术官康铁钢接受北京卫视的采访,并对易道博识的技术积累,产品服务和行业领先度等方面给予了高度认可。


“深度学习的成熟,给文字识别,人脸识别的识别率带来了巨大提升,除了涌现大量的AI初创公司,也有很多实际的落地场景,我们公司从创立开始就拥抱深度学习,并围绕深度学习搭建了我们的产品矩阵。”康铁钢在采访中介绍道。


但是,深度学习在实际应用中条件很苛刻。人工智能模型的开发与上线应用需要经历从业务理解、数据采标及处理、模型训练与测试到运维监控等一系列流程。过程中需要大量的AI算力、高质量数据源、Al应用算法研发及Al技术人员的支持。


事实上,大部分中小企业用户并不具备在“算力、数据、算法”三维度从0到1部署的能力,而财力雄厚的大型企业亦需高性价比的AI开发部署方案。


所以,如何AI基础层服务在多环节提升技术价值,AI产业如何进入低技术门槛、低部署成本、各产业深度参与双向共建的效率化生产阶段,是企业当下面临的重要问题。


十年磨剑,如何用好深度学习这柄“利剑”?



假如,每次开发模型都需要算法工程师单独完成从生产到上线的全流程招建,就会导取很多时间的耗损与AI模型开发成本的浪费。所以集标注、训练、推理于一体的赛博(Cybot)深度学习平台应运而生。


赛博学习平台是易道博识基于深度学习自主研发的全栈式数据服务平台,包含数据标注平台、训练平台、推理平台、接口平台、管理平台5大部分,涵盖数据标注,数据训练、推理服务三大数据服务环节,可提供模型开放及模型训练的流水线定制化服务。


赛博学习平台的出现凝聚了易道博识2013年创立以来,在文字识别,图像识别等核心技术上近十年的技术沉淀和经验积累,也与驱动AI业务的外因以及企业自身的内因紧密相关。从外因看,规模化多场景的业务不断衍生出长尾需求,原有的应用需及时更新;从内因看,囿于开发企业有限的经营成本与AI技术人才,其资源主要投放到现阶段的主营业务,现有人员难以推动业务的智能化改造。


其中,智能结构化推理平台用于训练产生针对各种不同版式的OCR识别引擎,自动从非结构化数字信息中抽取目标数据,为识别平台提供结构化方法,一个版式3~5分钟内即可完成,可以赋予客户自主解决80%以上的固定格式业务凭证的识别问题。


而其中的API接口平台属于API资源的一种,其可帮助技术领先企业开放AI能力与先进资源,从而延伸价值链、构造产业生态,形成规模经济与长尾经济,且利用开发者的创新应用来反哺开放平台;同时,其亦可在减轻基础设施建设投入的条件下协助开发者打造自身产品或服,节省开发时间。

从总体上看,赛博学习平台可提供较为前沿的技术、经济合理的模型生产经验以及为实现敏捷开发而打包的数据、算力与算法资源。具体而言,其采用自动机器学习技术,很大程度上降低了机器学习的编程工作量、节约了AI开发时间、减轻了对专业数据科学家与算法工程师的依赖,让缺乏机器学习经验的开发者用上AI,加快开发效率。


春风化雨,把深度学习OCR带给移动端


国内首份OCR白皮书《智能文字识别(OCR)能力测评与应用白皮书》中指出:大量的OCR应用需要在资源受限的移动端设备上运行,当前移动端OCR算法大多以牺牲一定的算法精度来换取运行速度,针对移动设备设计兼顾性能和效率的轻量OCR模型将是未来发展的重要方向。


早在去年,易道博识就察觉到了行业上的轻量级趋势和需求,并在今年成功推出了移动端深度学习OCR ——DOM(,Deep OCR of Mobile),也就是手机端的深度学习OCR版本。


DOM是一款可以在移动端实现深度学习的OCR产品,可以支持在任意方向或角度以及苛刻背景条件下的超高速证件识别。DOM最大的特点体现在两方面:高精度,轻量级。他可以10M左右的内存环境,在保证高精度的前提下,深度学习的高速度优势完美展现,在手机上实现了原来在服务端上才能支持的精度与速度。



相比传统 SDK 中基于四边定位的的方法,深度学习的方法能够更好地排除 背景噪声的干扰,如存在背景线条或背景特征与证件接近的情况,从而可以得到更精确的证件轮廓信息。在识别能力上,基于深度学习技术的 DOM SDK识别核心具有大幅度领先的识别精度,具体表现在如生僻字、少数民族证件等场景下更好的识别效果。


DOM SDK的市场需求非常大,证券开户,银行开户,投保理赔,汽车金融……等大量应用卡证识别,且移动端需求量极大的业务,都是DOM SDK的应用场景。这些场景对识别速度、识别精度的要求非常高,客户容忍度低,注重用户体验,对产品的鲁棒性要求很高。


与人脸识别等其它识别任务不同,OCR技术不仅需要卷积神经网络(CNN),还需要更复杂、计算量更大的递归神经网络(RNN、LSTM),这需要强大算力为支撑,而手机并不像服务器端一样拥有GPU。在不依赖算力和GPU的情况下,大幅度提升识别精度,显著改善用户体验,这正是DOM SDK的技术价值所在。


润物无声,瞄准市场风口,赋能更多行业


道阻且长,行则将至。易道博识作为一名在AI路上已近10年的棋手,在赛博平台和移动端OCR 无疑是两手好棋。


首先,二者均从业务前端发掘潜在及外显的市场需求,针对刚需应用与高价值环节延伸出多条增量建设与运行需求业务线,瞄准市场风口的同时,敏捷、经济地消化个性化和碎片化需求,根据需求柔性匹配生产。


而在两手好棋的背后,易道博识也在构筑自己的 “珍珑棋局”。


从 2020 年至今,易道博识与华为建立了密切的合作关系。不仅与华为在产品上达成兼容,还基于各自领域的技术与资源优势,在解决方案层上积极探索实践。其中,易道博识的Deep OCR技术为Atlas 800推理服务器提供了“每秒20张A4纸”量级的文本识别能力,因性能提高带来的资源节省使得机房空间下降了60%,资源能耗下降了30%。现已得到华为昇腾智能OCR解决方案的Compatible技术认证证书。


并且今年,易道博识已经和英特尔创新孵化器达成战略合作,目前就产品研发和应用上和英特尔的CPU技术框架进行适配,目前阶段性进展顺利,POC技术合作部分已取得了满意的优化结果,下一阶段会逐步应用到更多的产品类型上。


在线留言