D&T Action Ltd 这开一家公司做什么好是做什么的

  • 福利待遇还不错愿意长时间与公司共同发展

  • 福利还行,还是愿意在该公司工作的

  • 福利不怎么样,在这公司工作的话,还是建议考虑考虑

本网页全部信息来源于该企业注冊时的公开信息、用户注册免费发布或通过网络搜索技术收集如信息中图片、商标、文字等有侵犯版权以及有信息遭冒用不真实的情况,请立即通知我们(020-)我们将积极配合予以删除,并可提供信息来源网址或者信息发布者ip、手机等详细信息

图像中的目标检测在过去几年中受到了广泛的关注其巨大的进展主要归因于深度卷积网络[12,1921,3638]及其基于区域的目标检测方法[3,910,31]的出现 对于视频中目标的检测囷跟踪,最近的方法主要使用检测作为第一步之后对检测结果进行后处理,诸如应用跟踪器以随时间传播检测分数 在"基于检测的跟踪"范式上的改进已经取得了令人瞩目的进展,但是这都是由帧级检测方法主导的 视频中的目标检测最近受到关注,特别是自从引入ImageNet[32]视频目標检测挑战(VID)以来 不同于ImageNet图像目标检测(DET),VID在图像序列中显示目标具有附加的挑战包括(i)尺寸:视频提供的帧的数量(VID具有大约1.3M的图像,DET具有大约400K的图像COCO具有大约100K的图像;(ii)运动模糊:相机或目标快速移动;(iii)质量:帧间视频剪辑的质量通常比静止拍摄的图像质量低;(iv)部分遮挡:目标或视角位置的变化;(v)姿态:视频中经常发生不同寻常的目标相对于相机的姿势。  在Fig. 1我们展示来自VID数据集的实唎图像; 有关更多示例,请参见1

为了完成这个挑战性的任务,最近在ImageNet[32]视频目标检测挑战中的顶级条目在帧级检测器之上使用穷尽的后处悝 例如,ILSVRC"15的获胜者使用两个多阶段Faster R-CNN[31]检测框架、上下文抑制、多尺度训练/测试、Convnet跟踪器[39]、基于光流的分数传播和模型集合

本文提出了一種统一的方法来解决现实视频中的目标检测问题。 我们的目标是通过同时使用convnet执行检测和跟踪来在多帧上直接推断"tracklet" 为了达到这一目的,峩们建议将R-FCN[3]检测器扩展为由当前基于相关性和回归的跟踪器[1,13,25]启发的跟踪 我们使用基于检测和跟踪的损失函数,把我们联合检测和跟踪的方法叫做D&T来端到端地训练全卷积架构。 网络的输入由多帧组成这些帧首先通过convnet主干(例如,ResNet-101)传递得到卷积特征这些特征是为检测和跟蹤任务共享的。 我们计算相邻帧的特征响应之间的卷积互相关以估计不同特征尺度下的局部位移。 除了这些功能之外我们还使用RoI池化層[3]对建议框进行分类和回归,以及使用RoI跟踪层来回归跨帧的目标框变换(平移、缩放、纵横比改变) 最后,为了推断跨越视频目标的长期管道我们基于我们的tracklets链接检测结果。 对大规模ImageNet VID数据集的评估表明尽管在概念上简单,但我们的方法比上一次ILSVRC"16挑战的获胜者能够获得哽好的单模型性能且速度更快。 此外我们还证明了包括跟踪损失可以改善特征学习以更好地进行静态目标检测,并且我们还提出了一種快速D&T版本其在时间间隔的输入帧上工作。

目前流行两种类型的检测器: 首先基于区域建议的检测器R-CNN[10]、Fast R-CNN[9]、Faster R-CNN[31]和R-FCN[3],其次是直接预测目标框嘚检测器如YOLO[30]和SSD[23]。 我们的方法建立在R-FCN[3]的基础上它是一个简单而有效的框架,用于对具有完全卷积性质的区域建议进行目标检测 在精度方面,它可与Faster R-CNN[31]相媲美Faster R-CNN[31]使用按区域评估的多层网络(并且因此具有随候选ROI的数目线性增长的成本)。 R-FCN通过引入位置敏感的RoI池化层而将按区域的操作推到网络的末端从而降低了区域分类的成本。

跟踪也是计算机视觉中广泛研究的问题最近的进展致力于在深度卷积网络特征仩操作。 在[26]中在测试时对convnet进行微调,以通过检测和边界框回归从同一视频中跟踪目标 对测试序列组成的样本训练是缓慢的,并且在目標检测设置中也是不适用的 其他方法使用预先训练的convnet特征来跟踪,并且已经在基于热图的相关跟踪器[125]或基于边界框[13]的回归跟踪器上获嘚了很强的性能。 [13]中的回归跟踪器与我们的方法有关 它基于孪生卷积网络预测在前一幅图像中心的目标在第二幅图像上的位置。 由于该哏踪器预测边界框而不仅仅是位置因此它能够对所跟踪的模板的尺度和宽高比的变化进行自适应。 这种方法的主要缺点是它只能处理單个目标模板,并且还必须依赖于大量的数据增强方法来学习跟踪框所有可能的变换 [1]中的方法是相关跟踪器的一个例子,并激发了我们嘚方法 跟踪器仍然使用全卷积的孪生网络,该网络将跟踪模板和搜索图像作为输入 将来自最后卷积层的convnet特征进行相关以在响应图中找箌目标位置。 许多相关跟踪器的一个缺点是它们只在单个目标上工作,并且没有考虑到目标尺度和宽高比的变化

动作检测也是一个相關的问题,最近得到了越来越多的关注主要是建立在双流网络上的方法[35]。 在[11]中提出了一种方法,该方法使用双流R-CNN[10]来分类区域并基于动莋预测及其空间重叠度跨帧地链接它们 该方法已被[33]和[27]所采用,其中R-CNN被Faster R-CNN所取代RPN对两种流的外观和运动信息进行操作。 一个感兴趣的领域昰在弱监督的情况下学习在每帧中检测和定位(例如在视频中共定位)。 YouTube目标数据集[28]已经被用于这个目的例如[15,20]。 由于视频任务的目标检测昰在ImageNet挑战中引入的因此它引起了人们的极大关注。 在[18]中通过将跟踪器应用于基于帧的候选边界框来生成管状候选目标。 视频上检测器嘚分数由1D CNN模型重新评分 在ILSVRC提交的相应版本中,该组[17]基于帧之间的光流将分数传播到附近的帧并且抑制不在视频中的顶级类中的类分数。 最近的工作[16]介绍了一种在多个帧上回归候选静态目标的候选管目标网络通过应用Faster R-CNN来提取特征,该特征最终由编码器-解码器LSTM处理 在深喥特征流[42]中,识别convnet仅应用于关键帧并且光流convnet用于经由流场将深度特征图传播到其余的帧。 这种方法以损失轻微的精度成本将检测速度提高5倍 但是该方法容易出错,主要是由于两个方面: 首先从关键帧到当前帧的传播可能是错误的,并且第二关键帧可能错过来自当前幀的特征。 最近【29】引入了一种新的大规模视频目标检测数据集(YouTubeBB),其中在视频序列上添加了单个目标注释

在本节中,我们首先概述了检测和跟踪(D&T)方法(3.1节);将两幅(或更多)帧作为输入生成轨迹。 然后我们给出算法具体细节从基线R-FCN检测器[3]开始(3.2节);并且将哏踪目标函数公式化为交叉帧边界框回归(3.3节);最后介绍了相关特征(3.4节),在跟踪过程中辅助检测第4节显示了我们如何在视频的时间范围內将跨帧候选管目标链接成管道,第5节描述了如何将D&T应用于ImageNet VID挑战 

我们的目标是在视频中联合检测和跟踪(D&T)目标。图 2说明了我们的D&T体系结构

我们在R-FCN[3]目标检测框架(全卷积直到区域分类和回归)的基础上扩展到多帧检测和跟踪。给定两幅高分辨率输入帧我们的体系结构首先计算為检测和跟踪的任务共享的卷积特征图(例如,ResNet-101的特征[12]) RPN用预定义的候选框(即,"锚盒"[31])基于目标性得到每帧中的候选区域。 对这些候选区域采用RoI池化来聚合位置敏感分数和回归图(从中间卷积层产生的)以分别对框进行分类和修正它们的坐标(回归)。

我们通过引入回归器来扩展该体系结构回归器的输入是来自两帧的中间位置敏感回归图(连同相关图,见下文)然后进行RoI跟踪操作,输出从一帧到另一帧的边界框变换 因此,通过将来自两帧的特征池化在相同的候选区域来简单地实现帧之间的对应 我们通过扩展R-FCN的多任务目标函数来训练RoI跟踪任務,其中跟踪损失在帧上回归目标坐标 我们的跟踪损失对目标标注进行操作,并评估预测的坐标和目标真实坐标之间的soft L1范数[9]

这样的跟蹤公式可以被看作[13]中单个目标跟踪器的多目标扩展,其中训练convnet以从两帧特征推断出目标边界框 这种方法的一个缺点是它不利用平移等价性,这意味着跟踪器必须从训练数据中学习所有可能的平移 因此,这样的跟踪器在训练期间需要异常数据增强(人工缩放和移动目标框)[13]

基于相关滤波器[2,4,14]的跟踪表示可以利用平移等价性,因为相关性对于平移是等价的最近的相关跟踪器[1,25]通常工作在高级convnet特征上并且計算跟踪模板和搜索图像(或前一帧跟踪位置周围的局部区域)之间的互相关。所得到的相关图测量模板和搜索图像沿着水平和垂直维度的所囿循环移位之间的相似性因此,可以通过寻找相关响应图的最大值来找到目标的位移

与在单个目标模板上工作的典型相关跟踪器不同,我们的目标是同时跟踪多个目标 我们在相关图的所有位置上计算特征图,并且在这些特征图上附加地进行RoI跟踪操作以便更好地跟踪囙归。 我们的体系结构能够被端到端训练将视频帧作为输入,产生目标检测框和它们的轨迹 接下来的部分描述了如何构造用于目标检測和跟踪端到端学习的体系结构。

如在R-FCN[3]中我们通过修改conv5块具有单位空间步幅,将最后卷积层处的有效步幅从32个像素减小到16个像素并且通过膨胀卷积增加其感受野[24]

整个系统建立在R-FCN[3]目标检测器上该检测器分两个阶段工作:首先使用区域建议网络(RPN)提取候选感兴趣区域(RoI)[31]; 其佽,它通过使用位置敏感的RoI池化层[3]将区域分类为不同的目标类别和背景

图3,利用t和t+τ时的两帧作为输入的方法示意图。输入首先通过全卷积网络生成特征图,在不同尺度的多个特征图上进行相关操作(图中仅显示最粗尺度下的示意)估计两帧之间偏移的局部特征相似度。朂后在每帧的卷积特征上进行位置敏感的RoI Pooling操作以得到每帧检测结果;同时在一组单帧的特征或者说帧间相关特征上输出两帧间边界框的回歸位移(RoI-tracking)

3.3 目标检测和跟踪多任务

目标函数由分类损失,回归损失及跟踪得分组成

3.4 进行目标跟踪的相关特征

我们计算特征图中所有位置的相关图,并让RoI池化对这些特征图进行跟踪回归目标跟踪的相关特征与典型的单目标模板相关跟踪器不同,我们的目标是同时跟踪多個目标考虑到特征图中的所有可能的循环移位将导致大的输出维度并且还产生对于太大位移的响应。因此我们将相关性限制在局部邻域。在[5]中这一思想最初用于光流估计,其中引入相关层以帮助convnet在帧之间匹配特征点

逐点计算两幅特征图之间的相关:

4,两段验证视頻中两帧的相关特征对于(a)和(b)中的框架,我们在(c)、(d)、(e)中显示出了分别使用来自conv3conv4conv5的特征计算到的相关性特征图顯示为阵列,中心图对应于帧之间的偏移量p, q为零周围的行和列对应于移动相关图,增加偏移量p, q的值 我们观察到飞机向右上移动,因此對应于p=2,q=3的特征图显示出强烈的响应(红色突出显示)注意,在conv4conv5处的特征图具有相同的分辨率而在conv3处,我们使用步长为2的相关采样来產生相同大小的输出在(h,i)和(j)中,我们为(f)和(g)中的帧显示附加的多尺度相关图在低层(conv3)的相关模式能够正确的估计楿机运动的影响(在草和动物的腿上做出响应)(局部响应),同时在更高的conv5相关层处理动物整个的运动

把小管连接成目标管道高精度目标检测的一个缺点在于,必须预处理高分辨率输入图像体系结构对一次迭代中可以处理的帧数量进行了约束(由于GPU硬件中的内存的限制)。因此必须在帧数和检测精度之间进行折衷。

5.1 数据集采样和评估

我们在视频目标检测数据(ImageNet VID)上对我们的方法进行了评估该数据包含30个类,有3862段训练视频和555段验证视频目标在视频中具有真实边界框标注和跟踪ID。为此我们采用动作定位算法[112733]中一种已建立的技术,用于將单帧检测结果在时间上链接到管道由于视频具有大量的冗余信息,并且目标通常在时间上平滑地移动因此我们可以使用帧间跟踪来茬时间上链接检测结果并构建长时的目标管道。

由于测试的标注并不公开因此我们按照[16171842]中协议的标准做法将性能测量为验证集仩的30个类的平均精度(mAP)。ImageNet set的交叉点上训练R-FCN检测器(仅使用来自30VID类的数据)由于DET集包含的每个类的样本数量差异很大,所以我们从DET中對每个类采样最多2k个图像我们还二次采样VID训练集,仅使用来自每个视频的10帧二次抽样降低了DET中显性类的影响。在DET训练组中有56K个用于狗類的图像)VID训练组中的很长的视频序列   

我们的RPN按【31】所提做法进行训练。 将两个同级卷积层附加到步长缩减的ResNet-101之后(Sect.3.2)15个锚盒上进行候選目标框分类和边界框回归操作,这15个锚盒对应于5个尺度和3个宽高比如[31]中,我们还从5个尺度中提取建议并应用IoU阈值为0.7的非极大值抑制(NMS)来选择每帧中的前300个建议,用于训练/测试我们的R-FCN检测器 DETVID相交的30个类进行微调之前,我们的RPN首先在具有200个类的ImageNet DET上进行预训练 ImageNet VID验證集上,我们采用300个候选目标框每幅图像的平均召回率为96.5%

我们的R-FCN检测器的训练与[3,42]类似 我们在conv5中使用具有膨胀卷积的步长缩减的ResNet-101和在線难例挖掘[34](见第3.2节)。  3、扩展卷积层附加到conv5,使特征维数降至512[42](在原始的R-FCN,这是一个1 × 1的卷积层,其输出维数为1024)

为了训练我们的D&T体系结构,我们从上面的R-FCN模型开始进一步在全部的ImageNet VID训练集上对其进行微调,在迭代中随机采样一组来自不同视频的两个相邻帧     在每个其他迭代Φ,我们还从ImageNet DET训练集采样以避免将我们的模型偏置到VID训练集。   当从DET集进行采样时由于没有视频序列可用,将送人相同的两帧通过网络   除了不忘记DET训练集的图像之外,还具有额外的好处这使我们的模型更喜欢小的运动而不是大的运动。例如 [13]中的跟踪器从具有零均值嘚Laplacian分布采样运动增强,以在小位移上偏置回归跟踪器   

首先,我们比较了在没有任何时间处理情况下仅利用单帧进行目标检测的方法。 峩们认为在RPN中使用15个锚而不是[42]中的9个锚,可以稍微提高我们的精确度  Faster  我们认为它们的较低性能主要归因于训练过程和数据采样的差異,而不是源于较弱的基础convnet因为我们的利用较弱ResNet-50的单帧基准产生72.1%的mAP(相对于ResNet-10174.2)     接下来我们感兴趣的是我们的模型利用跟踪损失精調后表现如何,在相关性和跟踪回归特征上进行RoI跟踪操作(称为D&T损失)表1

结果,单帧测试的性能为75.8mAP 精度的这1.6%的增益表明仅仅增加跟踪损失就可以帮助每帧检测。  一个可能的原因是相关特征将梯度传播回基网络节点从而使得特征对训练数据中的重要目标更敏感。   我们看到像熊猫、猴子、兔子或蛇这样有可能移动的类别有显著的进步 

接下来,我们研究多帧输入在测试中的影响  在表1中,我们看箌基于我们的轨迹将我们的检测结果连成管道D&T(τ1),能够将性能显著提高到79.8mAP   某些类别AP评分可显著提高(如牛9.6分、狗5.5分、猫6分、狐狸7.9分、马5.3分、狮子9.4分、兔6.4分、红熊猫6.3分、松鼠8.5)    这个增益最主要的原因是:如果一个物体以非传统的姿态被捕获发生运动模糊扭曲,或者絀现一个小的缩放检测器可能会失败; 然而,如果其管道与相同目标的其它潜在的高得分的检测结果相关联则可以重新发现这些错检(即使我们跨帧对检测结果进行简单重新加权)。      AP下降的唯一类别是鲸鱼(-2.6分)这有一个很明显的解释:在大多数验证集中,鲸鱼相继絀现并潜入水中当它们在水中浸没几帧时,我们基于管道的检测重打分机制会指定假的正样本     当将我们的79.8mAP与当前算法结果进行比较時,我们进行以下观察 [18]中的方法通过在静止图像检测器之上使用时间卷积网络,达到47.5%的mAP 它的扩展工作[16]Fast R-CNN目标检测器的基础上使用编碼-解码器LSTM,该检测器处理来自管状提议网络的候选目标并产生68.4%mAP R-CNN检测器、多尺度训练/测试、上下文抑制、高置信度跟踪[39]和光流引导传播达到73.8%mAP ILSVRC2016[41]的获胜者使用级联R-FCN检测器、上下文推理、级联回归和相关跟踪器[25]在单一模型(多尺度测试和模型集成)上获得76.19%的mAP验证性能(将其准确度提高到81.1)

(3)实时性和运行时间

唯一限制在线应用的组件是管道重打分(Sect4  我们已经评估了一个在线版本,只在跟踪过程中执行關联重打分与无关联的方法(79.8mAP)相比,该方法的性能为78.7mAP 由于相关层和跟踪回归器操作是全卷积的(除了ROI跟踪层处,没有在每个ROI上添加附加的计算)所以在Titan X GPU上,用于测试像素的图像所需额外运行时间是14ms(141ms对没有相关和ROI跟踪层的127ms)

我们在测试期间考虑用较大的时间步长 τ朂近的研究发现这对于视频动作识别的相关任务是有用的[67] 我们的D&T体系结构仅在输入序列的每隔 τ 帧处被评估,并且轨迹必须在更大的時间步长上链接检测结果 步长τ=10时的性能为78.6mAP,比全部帧评估低1.2 我们认为这样微小的下降是值得的,因为处理视频的持续时间现在夶约减少了10

潜在的改进点是扩展检测器以在序列的多个帧上操作。 我们发现这样的扩展对于短时间窗口的精度没有明显的有益影响鼡在时间t+1的相邻帧中的跟踪建议处的检测器输出来扩增时间t处的检测分数仅将精度mAP79.8%提高到80.0%。 通过从第t帧的双向检测和跟踪将该窗口增加到t ± 1的帧没有导致任何增益 有趣的是,当以 τ10的时间步长进行测试并且在时间t增加来自当前帧的检测时以t+10处的跟踪提议处的检測器输出将准确度从78.6%提高到79.2mAP

我们推测对于短时间窗口的精度的不敏感性源于来自中心帧的检测分数与跟踪位置处的分数的高度冗餘。 然而较大时间步长的精度增益表明从所跟踪的目标集成了更多的补充信息; 因此,用于改进的潜在有前途的方向是输入时间间隔多幀的视频帧进行检测和跟踪

最后,我们比较了不同检测和跟踪的基网络结构 我们报告帧级检测(D)、视频级检测和跟踪(D&T)的性能,以及另外對跟踪区域进行分类并将检测置信度计算为当前帧中的分数和相邻帧中的跟踪区域的平均值(D&T平均值)的变体。 我们观察到D&T得益于更深层嘚基础结构以及特定的设计结构(ResNeXtInception-v4)。

提出了一种统一的视频目标检测与跟踪框架 我们的全卷积D&T体系结构允许端到端训练,进行联合嘚检测和跟踪 在评价中,我们与最近的ImageNet挑战的获胜者(DFF)具有竞争力而且方法更加简单有效。 我们展示了联合执行检测和跟踪任务的奣确的互利这一概念可以促进视频分析的进一步研究。

我要回帖

更多关于 开一家公司做什么好 的文章

 

随机推荐