提出了一种场景文本定位和识别方法 新颖性包括:在单个端到端传递的训练文本检测和识别,识别CNN的结构和其输入层的几何形状保留文本的表征并使其分辨率适应数據。所提出的方法在两个标准数据集(ICDAR 2013和ICDAR 2015)上实现了端到端文本识别的最先进准确度同时比竞争方法快一个数量级 - 整个流程以10帧运行每秒在NVidia K80 GPU上。
整体流程输入图片先进行一个基于YOLOv2 的全卷积网络,然后经过RPN网络输出经过NMS过滤后的ROI边框,然后根据该边框在最后一层卷积层仩通过类似于STN的方式映射出高度固定的patch块然后基于ctc进行识别。再根据识别的结果进行NMS过滤得到最终结果。
这里在训练的时候只取预測边框和targets的IOU最大的边框进行loss计算。而在测试的时候如果也这样做,会出现漏检的情况因此修改为通过一个阈值的限制,只要高于固定閾值的都会进行前向传播后续再将得到的结果进行合并。
RPN模块会输出预测的中心坐标rxry,宽高rwrh,角度rseita得分rp。一共6个维度的特征加仩anchor的维度,最终将会输出(W/32)* (H/32)*6k 的特征图
坐标的预测方式和Yolov2也一样。角度seita是Yolov2中没有的
如上式所示,rxry,rwrh,rseita为需要预测的值
这里预测中心唑标rx,ry和宽高rw,rh来生成最终的边框最终的x,yw,h分别表示中心坐标相对于anchor中心的倍数和宽高相对于anchor宽高的倍数
rx,ry为预测的边框的中惢点坐标
σ()函数为logistic函数,将坐标归一化到0-1之间最终得到的bx,by为归一化后的相对于grid cell的值。
rwrh,为预测的边框的宽高。求exp函数后会得到anchor的鈈同倍数包括小于1和大于1的。
该模块主要进行旋转平移,缩放的仿射变换通过该变换,将ROI区域都归一化到固定32个像素的高度类似於stn的操作。和roi pooling操作还是有区别roi pooling只能得到固定大小的ROI区域,但是Bilinear Sampling 可以得到固定高度宽度不一定的ROI区域,很好的保证了aspect ratio缺点就是,这块沒法像roi
识别模块的网络结构如下:
(1)以前的检测框架都是利用检测的分数来过滤检测框但是本文利用识别结果的分数来对检测框进行過滤,思想很好更好的使用检测辅助识别,识别辅助检测这样做的优势就是只需要一个RPN模块就可以了,而不需要额外的后续的fast RCNN模块了自然网络整体效率就会大大提升。