R2CNN 论文详解

R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection

R2CNN：旋转区域CNN用于方向鲁棒性的场景文本检测（29 Jun 2017 三星中国）

声明：笔者翻译论文仅为学习研究，如有侵权请联系作者删除博文，谢谢！

源论文地址：https://arxiv.org/abs/1706.09579
笔者践行代码：https://github.com/DetectionTeamUCAS/R2CNN_Faster-RCNN_Tensorflow

注：文字中标粗和亮色的部分为笔者认为有创新改进余地和需要注意的地方，灰色背景部分为笔者的一些想法。因水平所限，部分笔触可能有不实和错误之处，敬请广大读者批评指正，让我们一起进步~

注：本文中提到的创新点类别为笔者自己定义，1类创新点是根本性创新，指前人没有或者较为新颖的方法；2类创新点是借鉴型创新，指所用方法在相关领域或者别的模型中有所使用，嫁接而来；3类创新点是改进型创新，指更改一些关键参数以提升使用的鲁棒性。

-----------------------------------------------------------------------------------------------------------------------------------------

摘要

本文提出了一种新的旋转区域CNN（R2CNN）检测自然场景图像中任意定向文本的方法。该框架基于Faster R-CNN[1]架构。首先，我们使用区域建议网络(RPN)生成围绕不同方向文本的水平框。其次，对于RPN提议的每个水平框，提取不同集合大小的集合特征，利用级联特征同时预测文本/非文本分数、水平框和倾斜最小区域框。最后，采用倾斜的非极大值抑制来得到检测结果。我们的方法在文本检测基准方面取得了竞争性成果：2015年ICDAR和2013年ICDAR。

这里的水平框和倾斜最小区域框是笔者按自己的理解翻译的，原文中水平框对应 axis-aligned bounding boxes，就是四四方方正常的四点坐标框；倾斜最小区域框对应 inclined minimum area box，是那种八点坐标框，可以对方向进行预测。

1 介绍

       自然场景中的文本(如街道名牌、商店名称、名字)在我们的日常生活中扮演着重要的角色。它们携带有关环境的基本信息。理解场景文本后，可以广泛用于多个领域，比如文本检索、翻译等。理解场景文本通常有两个关键步骤：文本检测和文本识别。本文主要研究文本检测。场景文本检测具有挑战性，因为场景文本具有不同的大小、宽度、高度、宽高比、字体样式、光照、透视失真、方向等。由于定位信息对于场景文本识别和其他任务是有用的，场景文本检测不同于一般的目标检测任务，即除了水平包围框信息外，还应该对文本的方向进行预测。
       大多数以前的文本检测方法被设计用于检测水平或接近水平的文本[2,3,4,5,6,7,8,9,10,11,12,14],也有一些方法试图解决任意取向的文本检测问题[15,16,17,18,19,20,31,32,33,34]。最近，任意取向的场景文本检测是一个热门的研究领域，可以从ICDAR2015附属场景目标检测鲁棒性阅读竞赛的频繁更新结果中看出[21]。传统的文本检测方法基于滑动窗口或Connected Components (CCs)[2,3,4,6,10,13,17,18,19,20],最近广泛研究了基于深度学习的方法[7,8,9,12,15,16,31,32, 33,34]。
       本文提出了一种用于检测任意方位场景文本的旋转区域CNN(R2CNN)。它基于Faster R-CNN架构[1]。图1示出了所提出的方法的过程。

图1 R2CNN的过程： (a)原始输入图像；(b)由RPN生成的文本区域(平行边界框)； (c )预测的平行框和倾斜最小面积框(每个斜框与平行框相关联，关联框对用相同的颜色表示)；(d)倾斜非极大值抑制后的检测结果。

图1(A)是原始输入图像。我们首先使用RPN来提出包围文本的平行边界框(图1(B))。然后我们对提议框进行分类，精简平行框。对具有不同尺寸的集合特征合并，以预测倾斜最小区域框(图1(C ))。最后，利用倾斜非极大值抑制进行检测处理候选，以获得最终检测结果 (图1(D)。我们的方法在ICDAR 2015附带文本检测基准上的F-measure 为82.54%，在ICDAR 2013聚焦文本检测基准上为 87.73%。

总结下 R2CNN 的检测过程（图1）：

提取特征网络；
使用RPN生成水平框，并进行分类和精简（粗检测——只分类前景和背景）；
对具有不同尺寸的集合特征合并，以预测具体目标分数、水平框以及与之关联的倾斜最小区域框；（细检测——具体类别）
采用倾斜非极大值抑制得到检测结果。

本文的贡献如下：

我们介绍了一种用于检测任意方向场景文本的新框架（图2）。它基于Faster R-CNN[1]。RPN用于提出文本区域、Fast R-CNN模型[23]修改为文本区域分类、细化和倾斜框预测。
将面向任意方向的文本检测问题描述为一个多任务问题。该方法的核心是预测由RPN提出的每一个生成建议的文本分数、水平框和倾斜最小区域框。
为了最大限度地利用文本特征，我们为每个RPN提议区域做了几个不同集合大小 (7×7，11×3，3×11) 的ROI Poolings。然后，将这些特征合并以用于进一步的检测。
我们对Faster R-CNN的改进还包括增加一个较小的锚点来检测小场景文本，并使用倾斜的非极大值抑制对检测候选框进行后处理，以获得最终结果。

创新点：可以看到 R2CNN 在 Faster R-CNN 的基础上，有一个 1 类创新点：倾斜最小区域框（及配套的倾斜NMS）
两个 3 类创新点：ROI Poolng层从 7×7 更改为 7×7，11×3，3×11；增加一个较小的锚点（4,8,16,32）。

图2 R2-CNN框架：对于CNN的特征映射，RPN用于提出包围任意面向文本的轴平行框.对于RPN生成的每个框，执行了三个不同池大小的ROI Poolings，并将集合特征组合起来，用于预测文本分数、轴平行框(vx、vy、vw、vh)和倾斜最小面积框(ux1，uy1，ux2，uy2，uh)然后对倾斜框进行倾斜非极大值抑制，得到最终结果。

2 相关工作

       传统的场景文本检测方法包括基于滑动窗口的方法和基于连接部件(CCs)的方法[2,3,4,6,10,13,17,18,19,20]。基于滑动窗口的方法是在图像中依次移动一个多尺度窗口，然后将候选字符分为字符和非字符来检测候选字符。基于CCs的方法是基于CCs生成候选字符。特别是基于最大稳定极值区域(MSER)的方法在ICDAR 2015[21]和ICDAR 2013[22]比赛中取得了良好的成绩。这些传统的方法采用自底向上的策略，通常需要几个步骤来检测文本(如字符检测、文本行构建和文本行分类)。
       一般目标检测是近年来的一个研究热点。基于深度学习的技术在很大程度上促进了对象检测。一种对象检测器是基于区域建议的目标检测方法，如R-CNN [24]，SPPnet [25]， Fast R-CNN [23]， Faster R-CNN [1]， R-FCN[26]。另一类对象检测器不依赖于区域建议，直接估计候选对象，如SSD[27]和YOLO[28]。我们的方法是基于Faster R-CNN架构。在Faster R-CNN中，提出了一种区域建议网络(RPN)，它可以直接从卷积特征图中生成高质量的目标建议。然后利用Fast R-CNN模型[23]对RPN生成的方案进行细化和分类。由于场景文本具有方向性，与一般对象不同，一般对象检测方法不能直接用于场景文本检测。
       基于深度学习的场景文本检测方法[7、8、9、12、15、16、31、32、33、34] 性能优于传统方法。文本框是一种端到端的快速场景文本检测器，具有单一的深度神经网络[8]。DeepText通过Inception-RPN生成词域建议，然后使用文本检测网络[7]对每个词域建议进行评分和细化。全卷积回归网络(FCRN)利用合成图像训练场景文本检测模型[12]。但是，这些方法的目的是生成轴向平行的检测框，而不是解决文本定向问题。Connectionist Text Proposal Network (CTPN)检测固定宽度的垂直框，使用BLSTM捕捉序列信息，然后将垂直框连接起来，得到最终的检测框[9]。它在检测水平文本时性能较好，但不适用于高倾斜文本。有一种基于全卷积网络(FCN)的多目标场景文本检测方法[16]。该方法需要三个步骤: FCN检测文本块、基于MSER的多方向文本行候选生成和文本行候选分类。之后提出了旋转区域建议网络(RRPN)来检测任意方向的场景文本[15]。它基于Faster R-CNN[1]。其对RPN进行了改进，利用文本倾斜角信息生成倾斜建议，并在倾斜建议的基础上进行分类和回归。提出了分段链接[31]算法，通过检测分段和链接来检测有向文本。它在任意长度的文本行上工作得很好。EAST[32]用于自然场景中快速准确的文本检测。DMPNet[33]用于检测四边形较紧的文本。提出深度直接回归[34]算法用于解决多目标场景文本检测问题。
       我们的目标是检测任意方向的场景文本。与RRPN[15]类似，我们的网络也基于Faster R-CNN[1]，但是我们使用了不同的策略，而不是生成倾斜建议。我们认为RPN具有生成文本候选体的能力，并根据RPN提出的文本候选体来预测方向信息。

3 采用的方法

在本节中，我们介绍了我们的方法来检测任意方向的场景文本。图2显示了提议的旋转区域CNN(R2CNN)的架构。首先给出了如何形式化的任意方向文本检测问题，然后介绍了 R2CNN 的细节。之后描述了我们的训练对象。

3.1 问题定义

在ICDAR 2015比赛[21]中，附带场景文本检测的ground truth以顺时针方向四个点(x1,y1,x2,y2,x3,y3,x4,y4)表示，如图3(a)所示。标签在word级别。这四个点构成一个四边形，可能不是矩形。虽然由于视角的扭曲，场景文本可以被不规则的四边形更加紧密地包围，但是可以粗略地被有方向的倾斜矩形包围(图3(b))。当我们认为一个倾斜矩形可以覆盖大部分文本区域时，我们将任意方向的场景文本检测任务近似为检测一个倾斜的最小面积矩形。在本文的其余部分，当我们提到边界框时，它指的是一个矩形框。

图3 面向任意目标的场景文本检测：（a）ICDAR 2015按顺时针方向以四点形式标记附带场景文本；（b）倾斜最小面积矩形在我们的方法中被用作检测目标；（c）倾斜矩形的另一个示例

虽然表示倾斜矩形的直接方法是用角度表示其方向，但由于角度目标在某些特殊点上不稳定，我们没有采用这种策略。例如，一个旋转角度为90°的矩形与旋转角度为 -90°的矩形非常相似，但是它们的角度却有很大的不同。这使得网络很难学会检测垂直文本。我们没有使用角度来表示方向信息，而是使用前两点的顺时针坐标和包围框的高度来表示倾斜矩形(x1,y1,x2,y2,h)。我们假设第一个点总是表示场景文本左上角的点。图3(b)和图3(c )显示了两个示例。(x1,y1)为第一点坐标(实心红点)，(x2,y2)为第二点坐标(顺时针方向)，h为倾斜最小面积矩形的高度。

3.2 旋转区域CNN（R2CNN）

3.2.1 概述

我们采用了流行的两阶段目标检测策略，包括区域建议和区域分类。旋转区域CNN (R2CNN)是基于Faster R-CNN[1]。图2显示了R2CNN的体系结构。1.RPN首先用于生成文本区域提案，这些提案是水平的边界框，包围着面向任意方向的文本(图1(b))。2.然后针对每个proposal，对卷积特征图进行不同池大小的ROI Poolings(7×7,11×3,3×11)，3.并将池内的特征串联起来，进行进一步的分类和回归。使用两个全连接层来预测文本/非文本得分、轴向平行的框和倾斜的最小区域框(图1©)。4.然后对倾斜框进行倾斜非极大值抑制处理，得到检测结果(图1(d))。

3.2.2 用于提议水平框的RPN

       我们使用RPN生成包围任意定向文本的水平框。这是合理的，因为水平框中的文本属于以下情况之一：a)文本在水平方向;b)文本在垂直方向;c)文本在轴平行框的对角线方向上。如图1（b）所示，RPN能够以面向任意文本的水平框的形式生成文本区域。
       与一般对象相比，小场景文本较多。我们通过在RPN中使用更小的锚标来支持这一点。在Faster R-CNN[1]中，原始锚点尺度为(8,16,32)，我们研究了两种策略: a)将锚尺度更改为较小的尺寸，使用(4,8,16); b)添加新的锚点，即用(4,8,16,32)。实验证明，采用较小的锚点对场景文本检测有一定的帮助。
       我们保持 RPN 的其他设置与 Faster R-CNN[1] 相同，包括锚的形状比例、正样本和负样本的定义等。

这里的R2CNN采用（4,8,16,32）作为锚点框的尺度。

3.2.3 不同池化尺寸的ROI Poolings

Faster R-CNN框架是在 feature map 上进行ROI Pooling，每个RPN提案的池大小为7×7。由于一些文本的宽度远大于高度，我们尝试使用三种不同大小的ROI Poolings来捕捉更多的文本特征。合并池中的特性以便进一步检测。具体来说，我们添加了两个池大小:11×3和3×11。池大小3×11的目的是捕捉更多的水平特征，并帮助检测宽度远远大于高度的水平文本。池大小11×3被认为是捕捉更多的垂直特征，并有助于垂直文本检测的高度远远大于宽度。

3.2.4 文本/非文本分数、水平框和倾斜最小面积框的回归

在我们的方法中，在RPN之后，我们将RPN生成的提案分类为文本或非文本（目标/非目标），并对包含任意文本朝向和预测倾斜边界框的水平边界框进行细化。每个倾斜的框都与一个水平框相关联(图1©和图4(a))。虽然我们的检测目标是倾斜边界框，但是我们认为增加额外的约束(水平框)可以提高性能。我们的评估也证实了这个想法的有效性。

为什么增加这个约束会提高性能？？？更好的检测倾斜框？

3.2.5 倾斜非极大值抑制

非极大值抑制(NMS)是当前目标检测方法中广泛应用的一种后处理检测方法。当我们同时估计水平包围框和倾斜包围框时，我们可以在水平包围框上执行普通的NMS，或者在倾斜包围框上执行倾斜的NMS。在倾斜的NMS中，将传统的交并比(IoU)算法修改为两个倾斜边界框之间的IoU算法。采用[15]中IoU的计算方法。

图4. 倾斜non-maximum抑制： (a)候选水平排列方框和倾斜（关联）方框; (b)基于正常NMS对水平方框的检测结果(绿色方框为正确检测，红色虚线方框为未检测到的方框); ©基于倾斜NMS的倾斜方框检测结果; (d)两个水平框的例子;(e)两个斜框的例子。

图4示出了在执行两种NMS之后的检测结果。图4(a)示出了每个水平边界框与倾斜相关联的预测候选框；图4(b)显示了正常NMS对水平框的影响，图4©显示了倾斜NMS对倾斜框的影响。如图4(b)所示，文本在水平框上的正常NMS下，未检测到红色虚线框.图4(d)和图4(e)显示了倾斜NMS更适合倾斜场景文本检测的原因。我们可以看到，对于相邻的倾斜文本，普通的NMS可能会遗漏一些文本，因为水平框之间的IoU可以很高(图4(d))，但是倾斜的NMS不会遗漏文本，因为倾斜的IoU值很低(图4(e))。

NMS的详细解释见：NMS（非极大值抑制）

3.3 训练目标（多任务损失值）

RPN的训练损失与Faster R-CNN[1]相同。在本节中，我们只介绍R2CNN对RPN生成的每个水平边框的损失函数。
我们在每个提议框上定义的损失函数是文本/非文本分类损失和边框回归损失的总和。边框回归损失由两部分组成:包围任意方向文本的水平边框损失和倾斜最小面积边框损失。每个提议框的多任务损失函数定义为:

       λ1和λ2是平衡控制三项之间的权值参数。边框回归只对文本执行操作，t是类标签的指示器；文本标记为1（t=1），背景标记为0（t=0），参数p=（p0,p1）为softmax函数计算的文本和背景类别之间的概率；Lcls（p，t）=-log pt是真实类t的log损失值。
       v=（vx，vy，vw，vh）是真实轴平行边框回归目标的一个元组，包括中心点的坐标、它的宽度和高度；v*=（vx*，vy*，vw*，vh*）是文本标签的预测元组。u=（ux1，uy1，ux2，uy2，uh）是真实倾斜边框回归目标的一个元组，包括前两个点的坐标及其高度。u*=（ux1*，uy1*，ux2*，uy2*，uh*）是文本标签的预测元组。
       我们使用[24]中给出的v和v*，即指定尺度不变的变换和log-space（log金字塔）相比于对象建议框的的高度/宽度变化。对于倾斜边框，参数组（ux1，uy1），（ux2，uy2），（ux1*，uy1*）和（ux2*，uy2*）与（vx，vy）相同，参数组uh和uh与参数组vh和vh相同。
       用（w，w*）标识（vi，vi*）或（ui，ui*），则Lreg（w，w*）定义如下：

4 实验

4.1 实施细节

4.1.1训练集

       我们的训练数据集包括来自ICDAR 2015训练数据集[21]和2000聚焦场景文本图像的1000个附带场景文本图像。我们收集到的图像中的场景文本是清晰的，与2015年ICDAR中模糊的文本完全不同。虽然我们经过实验表明，额外采集的图像并没有提高ICDAR 2015的性能，但我们仍然包括在训练中使我们的模型对不同类型的场景文本具有更强的鲁棒性。由于ICDAR 2015培训数据集包含难以检测到的“###”标记的困难文本，因此我们只能使用这些可读文本进行训练。此外，我们使用由多个字符组成的场景文本进行训练。
       为了支持任意方向的场景文本检测，我们通过旋转图像来扩充ICDAR 2015训练数据集和我们自己的数据。我们将图像旋转如下角度(-90、-75、-60、-45、-30、-15、15、30、45、60、75、90)。因此，经过数据扩充，我们的训练数据包含39000张图像。
       ICDAR 2015文本采用四边形的四个顺时针点坐标标注在word水平。由于我们将附带文本检测问题简化为3.1节中介绍的检测倾斜矩形的问题，我们通过计算最小面积矩形，从四边形中生成ground truth倾斜边框(矩形数据)。然后，我们计算最小水平包围文本的边界框，将其作为ground truth水平框。对我们收集的图像进行类似的处理，生成ground boxes真实数据。

4.1.2 训练

我们的网络用经过ImageNet分类[29]预训练的VGG16模型初始化。我们使用端到端训练策略。所有模型均经过20×104次迭代训练。学习率从10 ^- 3开始，经过5×104、10×104和15×104每次迭代都乘以110。权重衰减为0.0005，动量为0.9。所有实验均采用单一规模训练。图像的最短边设置为720，而最长边设置为1280。我们选择这个图像尺寸是因为ICDAR 2015[21]中的训练和测试图像的尺寸(宽度:1280，高度:720)。

4.2 性能

我们在ICDAR 2015[21]和ICDAR 2013[22]上对我们的方法进行了评价。该评估遵循ICDAR的鲁棒阅读比赛指标的形式，以精度，召回率和F-measure。通过将检测结果提交到竞赛网站，并在网上获得评价结果，得到结果。

A.ICDAR 2015

本节介绍我们在ICDAR2015[21]上的表现。ICDAR 2015竞赛测试数据集包含500幅图像，其中包含具有任意方向的附带场景文本。我们方法可以达到召回率为79.68%，精确度为85.62%，F-measure为82.54%。我们做了几个实验来验证我们设计的有效性。表1总结了我们的模型在不同设置下的结果。我们将比较以下模型:Faster R-CNN[1]、R2CNN -1、R2CNN -2、R2CNN -3、R2CNN -4和R2CNN -5。我们主要关注评价的是水平边框回归(𝜆1)和倾斜边框回归(𝜆2) 的影响，锚的尺度和NMS方式（倾斜与否）的影响，和ROI Poolings不同池大小的影响。所有这些模型都是在上一节介绍的相同数据集中训练的。

水平框和倾斜框
       Faster R-CNN轴平行边框回归设置了𝜆1 = 1和𝜆2= 0。不同于Faster RCNN, R2CNN-1倾斜边框回归设置(𝜆1 = 0和𝜆2 = 1),这将导致大约6%的性能提升速度(F-measure: 62.40%比56.63%)。原因是Faster R-CNN的输出是水平方框，忽略了方向信息。R2CNN-2水平框回归将文本和斜框(𝜆1 = 1和𝜆2 = 1)导致另一个6%的性能提升 (F-measure: 68.49%比62.40%)。这意味着学习附加的水平方框可以帮助检测倾斜的方框。
锚的尺度
       R2CNN-3和R2CNN-4是为了评估锚尺度对场景文本检测的影响而设计的。R2CNN-2采用了原始尺度(8,16,32)，R2CNN-3采用了较小的锚尺度(4,8,16)， R2CNN-4在锚尺度上增加一个较小的锚尺度，锚尺度变为(4,8,16,32)，在RPN中生成12个锚。结果表明，在单尺度试验条件下，R2CNN-3和R2CNN-4性能相近(F-measure: 72.94% vs. 72.93%)，但均优于R2CNN-2(F-measure: 68.49%)。这说明小锚点可以提高场景文本检测性能。
在多尺度试验中，R2CNN-4优于R2CNN-3 (F-measure: 79.74% vs. 78.73%)。这是因为在多尺度测试下，场景文本在图像金字塔中可以有更多的尺度，而R2CNN-4具有更多的锚尺度，可以比R2CNN-3更好地检测各种大小的场景文本。
单一池化大小和多池化大小
       R2CNN-5用于评估多个池大小的影响。如表1所示，在三种混合尺寸(7×7,11×3,3×11)下，R2CNN-5优于单一尺寸(7×7)下的R2CNN-4 (F-measure: 75.34% vs.74.36%，多尺度试验和倾斜NMS下为82.54% vs. 81.8%)。这证实了在R2CNN中使用更多的特征有助于场景文本检测。
水平框上的普通NMS与倾斜框上的倾斜NMS
       由于我们对轴平行边框和倾斜最小面积边框进行了回归，并且每个轴平行边框都与一个倾斜框相关联，因此我们比较了常规NMS在轴平行边框上的性能以及倾斜NMS在倾斜框上的性能。我们可以看到，无论是单次测试还是多尺度测试，R2CNN -3、R2CNN -4和R2CNN -5倾斜型NMS的性能均优于普通NMS。
测试时间
       表1中的测试次数是在Tesla K80 GPU上进行测试时得到的。在单尺度测试下，与Faster R-CNN基准相比，我们的方法只增加了很少的检测时间。
与当前最先进的方法比较
       表2为R2CNN与ICDAR 2015[21]上的最新方法的结果对比。这里R2CNN指的是倾斜NMS的R2CNN -5。结果表明，该方法的召回率为79.68%，精确度为85.62%，F-measure为82.54%。

由于我们的方法可以被认为是倾斜方框是基于水平方框得到的，所以它可以很容易地适应其他架构，比如SSD[27]和YOLO[28]。图5展示了我们的R2CNN在ICDAR 2015上的一些检测结果。我们可以看到，我们的方法可以检测具有不同方向的场景文本。

B. ICDAR 2013

       为了评价我们的方法的适应性，我们在ICDAR 2013[22]上进行了实验。ICDAR 2013测试数据集由233幅聚焦场景文本图像组成。图像中的文本是水平的。由于我们可以估计水平框和倾斜框，我们使用水平框作为ICDAR 2013的输出。
       我们对ICDAR 2015最后一部分训练的Faster R-CNN模型和R2CNN-5模型进行了实验。表3显示了我们的结果和最新的结果。我们的方法可以达到F-measure 87.73%的结果。由于我们使用的训练数据不包含单个字符，但是在ICDAR 2013中应该检测单个字符，所以我们认为我们的方法可以在使用单个字符训练我们的模型时取得更好的效果。
       为了将我们的方法与Faster R-CNN基准进行比较，我们还进行了单一尺度测试，其中图像的短边设置为720像素。在表3中，Faster R-CNN和R2CNN-720都采用了这个测试量表。结果是R2CNN-720比Faster R-CNN基准好得多(F-measure: 83.16% vs. 78.45%)。这意味着我们的设计对于水平文本检测也很有用。

图6显示了ICDAR 2013的一些检测结果。我们可以看到R2CNN可以很好地检测水平聚焦的场景文本。图中缺少的文本是一个字符。

所以R2CNN算法最后既有常规的水平预测框输出，也有倾斜框输出，这两种框都是基于RPN网络输出的ROI得到的，虽然倾斜框支路也能预测水平框，但是作者认为第二个支路的存在对最后结果帮助较大。

-----------------------------------------------------------------------------------------------------------------------------------------

有所疑惑，需要看实际代码解决的地方：
1）为什么能预测倾斜框？标注的时候是需要水平框和倾斜框都标注还是只标注水平框？
初步看代码是仍标注成VOC输入，然后转化为tfrecord的形式。但这在后期第三步预测文本/非文本分数、水平框和倾斜框时具体怎么实现的？
2）水平框和倾斜框的具体关联？会提升6%的精度。
3）最后的NMS过程是既普通NMS了水平框，又同时倾斜NMS了倾斜框；还是倾斜NMS就直接一步到位？