引言
手写数字识别是一个很基础的模式识别问题,从传统特征提取加机器学习训练方法到深度神经网络训练的识别方法识别都会达到比较高的精度,同时手写数字识别也是一个特别不稳定,很难具备普适性的模型,需要针对性的数据集与训练,然后才得到比较好的识别精度。
openvino 在2021.4 版本中已经加入了手写数字识别的预训练模型,开始支持手写数字识别,下面让我们一起探索与尝试下它的使用方法与效果如何!
模型介绍
在openvino 2021.4版本中支持的手写数字识别模型为handwritten-score-recognition-0003
,支持《digit》 or 《digit》。《digit》 格式的数字识别与小数点识别。该模型的结构有两个部分组成,前面是一个典型的cnn骨干网络,采用的是vgg-16类似的架构,实现特征提取;后面是一个双向的lstm网络,实现序列预测;最终的预测结果基于ctc解析即可。其输入与输出格式如下:
输入格式为:[nchw]= [1x1x32x64]
输出格式为:[wxbxl]=[16x1x13]
其中13表示“0123456789._#”,#表示空白、_表示非数字的字符
对输出格式的解码方式支持ctc贪心与beam搜索,演示程序使用ctc贪心解码,这种方式相对简单,前面一篇文章中我们已经详细介绍过了,后面就直接套用即可!
模型使用与演示
使用该模型必须是基于常见文字检测得到的roi区域,然后转化为灰度图象,使用该模型完成预测,关于场景文字检测,在前面一篇文章中我已经详细交代过了,这里就不再赘述。这里小可脑洞大开,针对常见的文本图象,采用opencv二值图象轮廓分析来完成数字roi区域得截取,同样取得了不错得效果。基本的流程是这样:
step 1: 读取图象并二值化
代码如下
mat src = imread(“d:/images/zsxq/ocr.png”);
imshow(“input”, src);
mat gray, binary;
cvtcolor(src, gray, color_bgr2gray);
adaptivethreshold(gray, binary, 255, adaptive_thresh_gaussian_c, thresh_binary_inv, 25, 10);
其中adaptivethreshold函数实现对灰度图象自适应二值化,参数blocksize=25表示高斯窗口大小,constants=10表示自适应常量值。需要注意的是参数blocksize值必须为奇数。
step 2: 使用轮廓分析过填充过滤小噪点
代码如下
std::vector《vector《point》》 contours;
std::vector《vec4i》 hireachy;
findcontours(binary, contours, hireachy, retr_external, chain_approx_simple);
int image_height = src.rows;
int image_width = src.cols;
for (size_t t = 0; t 《 contours.size(); t++) {
double area = contourarea(contours[t]);
if (area 《 10) {
drawcontours(binary, contours, t, scalar(0), -1, 8);
}
}
上面的代码findcontours表示轮廓发现,retr_external表示采用发现最外层轮廓,chain_approx_simple表示采用简单的链式编码收集轮廓上的像素点集。contourarea表示计算一个轮廓的面积,计算方式基于格林积分公式。drawcontours表示绘制轮廓,其中thickness参数为-1表示填充,大于零表示绘制边缘。这里通过对白色噪点填充为黑色,完成噪声去除,
step 3:膨胀预处理
对第二步输出的图象我们不能直接通过轮廓发现截取roi,然后交给数字识别网络去识别,原因是这样会导致roi区域的宽高比失衡,导致输入的数字resize之后发现畸变,识别精度会降低,所以通过膨胀操作,把数字适度的加宽与加高,主要是加宽,这样保持输入roi区域resize之后不变性,就很容易识别了。这部分预处理的代码如下:
mat se = getstructuringelement(morph_rect, size(45, 5));
mat temp;
dilate(binary, temp, se);
其中dilate表示膨胀操作、然后对得到temp图象。
step 4:数字识别推理与解析
对图-4进行轮廓发现,截取roi,遍历每个轮廓,调用识别推理即可输出。其中加载模型与获取推理请求,这里就不再赘述了,截取roi与推理解析部分的代码如下:
// 处理输出结果
findcontours(temp, contours, hireachy, retr_external, chain_approx_simple);
for (size_t t = 0; t 《 contours.size(); t++) {
rect box = boundingrect(contours[t]);
mat roi = gray(box);
size_t image_size = h*w;
mat blob_image;
resize(roi, blob_image, size(w, h));
// nchw
unsigned char* data = static_cast《unsigned char*》(input-》buffer());
for (size_t row = 0; row 《 h; row++) {
for (size_t col = 0; col 《 w; col++) {
data[row*w + col] = blob_image.at《uchar》(row, col);
}
}
// 执行预测
infer_request.infer();
auto output = infer_request.getblob(output_name);
const float* blob_out = static_cast《precisiontrait《precision::fp32》::value_type*》(output-》buffer());
const sizevector reco_dims = output-》gettensordesc().getdims();
const int rw = reco_dims[0];
const int rb = reco_dims[1];
const int rl = reco_dims[2];
std::string ocr_txt = ctc_decode(blob_out, rw, rl);
std::cout 《《 ocr_txt 《《 std::endl;
cv::puttext(src, ocr_txt, box.tl(), cv::font_hershey_plain, 1.0, cv::scalar(255, 0, 0), 1);
cv::rectangle(src, box, scalar(0, 0, 255), 2, 8, 0);
}
首先进行轮廓发现,然后根据每个轮廓截取roi区域,设置输入数据,推理,解析输出采用ctc方式。
扩展探索
这里我没有采用场景文字检测来获取roi,而是采用传统的二值图象分析来完成,主要是避免跟前面的文字内容重叠,同时启发更多的思路。另外采用膨胀扩展。
有时候并非是上上之选,还可以直接修改roi大小来扩展,这部分其实可以参考上一篇场景文字识别的代码,轮廓发现获取外接矩形,直接修改roi大小的方式,同时根据横纵比过滤非数字符号。改动部分就是去掉第三步膨胀,然后直接在第四步循环中添加下面的代码;
rect box = boundingrect(contours[t]);
float rate = box.width / box.height;
if (rate 》 1.5) {
continue;
}
box.x = box.x - 15;
box.width = box.width + 30;
box.y = box.y - 5;
box.height = box.height + 10;
数字信号处理:DSP系统设计入门课程
2023年什么牌子的蓝牙耳机好?实测告诉你
预计6月挖掘机销量同比增速保持50%以上,企业市占率仍有提升趋势
阿里2021财年第二季度业绩,营收入同比增长30%
中图科技净利润暴跌超80%:营收下降应收账款却逐年剧增
探索OpenVINO™ 手写字符使用方法
中微半导体已于11日向上海监管局提交IPO辅导备案
低温漂、低功耗电压基准 MSR015/MSR025
锂电池产业链前端分析:兼具资源属性与技术壁垒的前驱材料
Z世代随身数码小宝贝——AOPEN迷你掌上投影机PV11a
汇顶科技推出5G手机超薄指纹方案
ad9361接收电平范围
什么是VPN
MongoDB差异数据对比快速完成
家用电器行业电子采购系统降低采购成本,实现企业利润增长
PCBA分板时的流程与要求
TWS出货量将达2.3亿,安卓阵营拐点已至
运算放大器的分类与运算放大器在使用中的注意事项
Stack Overflow近日发布了2019年度开发者调查报告
中国摄像头传感器企业如何从自动驾驶视觉方案中突围