不久前,百度技术团队在不久前,百度技术团队在 github 上正式开源了一款 ocr 神器,在发布后不久便多次冲上 github trending 榜单,引起了技术圈内开发者的热议,今天就跟大家好好介绍下这个项目。
众所周知,ocr(optical character recognition,光学字符识别) 技术已被广泛应用到我们生活中的方方面面,从印刷稿的文字识别、身份证电子化信息录入,到传统邮件自动分拣、汽车牌照识别等领域,都上正式开源了一款 ocr 神器,在发布后不久便多次冲上 github trending 榜单,引起了技术圈内开发者的热议,今天就跟大家好好介绍下这个项目。
众所周知,ocr(optical character recognition,光学字符识别) 技术已被广泛应用到我们生活中的方方面面,从印刷稿的文字识别、身份证电子化信息录入,到传统邮件自动分拣、汽车牌照识别等领域,都少不了 ocr 的身影。
在平时工作的时候,我也经常会使用一些 ocr 软件来扫描图片并提取文字,而要替代人工完成一系列的文本分析,图像识别操作,则必将使用到 ai 技术。
百度在 github 上开源的 paddleocr 模型,大小仅有 8.6m,是目前圈内为数不多,能支持中英文图像、横竖排排版识别的 ai 深度学习模型之一。
先看下 paddleocr 自今年年中开源以来,短短几个月在 github 上的表现:
7 月,8.6m 超轻量模型发布,github trending 全球日榜榜单第一!
8 月,开源 cvpr2020 顶会 sota 算法,再上 github 趋势榜单!
9 月,github star 数量已超过 4.6k, 近期又带来哪些重磅更新?
果然,看 9 月最新更新,paddleocr 再次诚意满满为大家带来真干货,直接看官方介绍:
01. 官方介绍
数量上,这次 paddleocr 一口气发布了三个系列模型,满足移动端、服务器端各种场景需求。而且,多语言也妥妥安排上了,全部训练代码和模型毫无保留开源。其中 3.5m 超轻量文字识别模型,堪称目前业界开源的最轻量 ocr 模型了。质量上,如此轻量的模型,效果有保障吗?不看广告,直接看疗效。 先看几个常见的通用场景识别效果:
3.5m 的模型能达到这个识别精度,绝对是良心之作了!传送门 github:https://github.com/paddlepaddle/paddleocr论文下载链接:https://arxiv.org/abs/2009.09941
02. 快速体验
paddleocr 的 3.5m 超轻量 ocr 模型1).pc 端快速尝试:(打开网页,选一张图片,即可实时看到结果) https://www.paddlepaddle.org.cn/hub/scene/ocr
2). 手机端 app 安装体验paddleocr 在百度大脑 easyedge 上开放了文字识别 app demo。 示例效果如下(可以在 github 首页找到下载二维码)
多个开源 repo 测试对比
简单对比一下目前主流 ocr 方向开源 repo 的核心能力:
3). 从性能指标来看:
针对 ocr 实际应用场景,包括合同,车牌,铭牌,火车票,化验单,表格,证书,街景文字,名片,数码显示屏等,收集的 300 张图像,每张图平均有 17 个文本框,paddleocr 的 f1-score 超过 0.5,这个性能已经很不错了。
4). 从功能完备来看:
预训练模型大小:easyocr 目前暂无超轻量模型,chineseocr_lite 最新的模型是 4.7m 左右,而 paddleocr 提供的 3.5m 无疑是目前业界已知最轻量的。
pip 安装:目前仅 paddleocr 和 easyocr 支持。
自定义训练:实际业务场景中,预训练模型往往不能满足需求,对于自定义训练和模型 finetuning,目前只有 paddleocr 支持。
部署方面:easyocr 模型较大不适合端侧部署,chineseocr_lite 和 paddleocr 都具备端侧部署能力。
开发者可以根据自己的实际需求,选择适合自己的开源方案。 对于 paddleocr3.5mb 的超轻量模型,是如何做到的,repo 中也给出了解释。
3.5m 超轻量模型应用了一套超轻量 ocr 系统 pp-ocr,主要由 db 文本检测、检测框矫正和 crnn 文本识别三部分组成。该系统从骨干网络选择和调整、预测头部的设计、数据增强、学习率变换策略、正则化参数选择、预训练模型使用以及模型自动裁剪量化 8 个方面,采用 19 个有效策略,对各个模块的模型进行效果调优和瘦身。 其中,飞桨模型压缩库 paddleslim 为 paddleocr 超轻量化模型的实现提供了核心的技术支撑。从超轻量模型 8.1m 的压缩到 3.5m,模型大小降低了 56.79%,其中检测模型速度提升 21%,而且整体模型精度还有提升。
除了 3.5m 超轻量 ocr 模型,paddleocr 提供了多语言预训练模型(英、德、法、韩、日),支持自定义训练和丰富的部署方式。
原文标题:github标星4.6k+!这个ocr开源项目,火了!
文章出处:【微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。
如何利用示波器探头测量uA级电流和uV级电压
松下将与百思买联手在美国销售3D电视机
武汉光谷自主研发的虹膜生物识别芯片,通过严格的性能测试流片成功
索尼降噪耳机——WF-SP700N评测,科技感十足!
赛灵思针对回程应用推出完全自适应千兆位级点对点微波调制解调器IP
开源OCR 过程介绍
苹果:M1芯片研发在三到四年前就已启动
巴菲特再次减持比亚迪 依然持股8761.31万股
全球高性能功率半导体市场呈现新趋势
京东方的全媒体管控平台在成都地铁实现落地应用
电气开关锁具是工业生产安全性锁具中的一种
信步科技SV-KBL-S4嵌入式主板介绍
GPS的应用举例
三星Galaxy s9和Note 9齐曝光,造型惊为天人!
大众与恩智浦等10家厂商达成芯片采购协议 以避免供应短缺
5G+AR的商业化进展如何?
人工智能之神经网络新思路:OpenAI用线性非线性问题
微五科技助力“港华芯”规模应用
iphone8什么时候上市?iphone8最新消息:确定后置指纹识别,黑科技满满
物通博联工业设备数据平台,助力实现设备全生命周期智慧管理