当前位置：首页 > 短视频剪辑 > 正文

谷歌新发布Objectron短视频剪辑数据集,3D目标检测更真实准确！

2020-12-19 15:03:04 暂无评论短视频剪辑

From: MediaPipe 编译: T.R

当前，有关计算机视觉的算法，已经可以通过标注的三维边界框从图像中习得目标的空间位置，但充分理解三维空间中的目标依然是充满挑战的任务。其主要原因在于，与超大规模的2D标注数据相比 (例如：ImageNet，COCO，和Open Images) ，三维目标检测任务还缺乏大规模的标注数据。

因此，从学术界到工业界，都迫切需要以目标为中心的三维视频标注数据，以促进对真实三维目标的更深入理解。

由于视频流在计算机视觉中的应用十分普遍，所以基于视频流的标注数据将会帮助算法抽取更多结构数据，促进算法的性能提升。

为了解决这一问题，谷歌最近发布了一系列由短视频片段构成的、以目标为中心的Objectron三维目标标注数据集，覆盖了多种常见的目标和不同的拍摄角度。同时还包含了AR格式的元数据，包括相机位姿和稀疏点云。其中每一个目标都被手工标注，对位置、朝向和维度等方面进行了描述。数据集共包含了15K标注视频片段，涵盖了超过4M标注图像，这些图像的地理位置覆盖五个大洲十个国家，进一步提高了目标的丰富程度。

Objectron数据集中的标注视频样例

三维目标检测解决方案

为了验证新数据集的性能，研究人员还提出了双阶段的三维目标检测基线方案，用于检测四类常见的目标。下图显示了新算法在视频中的性能。当相机中运动目标的边界框保持稳定且连续，新算法准确地定位了目标在视频中的空间位置。

检测结果样例，所有的模型在移动端运行

先前的目标检测方法是通过单阶段的网络模型实现的，其主干网络利用了基于MobileNet的编码器-解码器架构，在多任务学习的同时，通过预测目标的形状来实现检测与回归。其流程如下图所示：

而新提出的方法采用了两阶段的检测架构。其第一阶段首先使用了Tensorflow中的目标检测模型，从图像中找到目标的二维切片；而后，第二阶段基于前一阶段的图像切片来估计目标的三维边界框，同时计算下一阶段目标所处的切片位置，这使得第一阶段的目标检测模型无需在每一帧都运行，从而提升了整个算法流程的效率。实验表明，基于这种双阶段算法的目标检测可以在Adreno 650移动端GPU上实现每秒83帧的处理速度。下图显示了双阶段方法的处理框架：

可以看到，第一帧被送入目标检测模型后得到存在目标的图像片，而后第二阶段的预测模型将同时预测三维边界框和下一帧目标所处的图像区域。下一帧图像直接输入到第二阶段的模型中进行处理，依次类推对视频流进行处理。

性能测评基准

与二维领域的目标检测一样，三维目标检测也需要有效的指标来测试算法的性能。研究人员用3D的IoU来描述目标检测算法的效果，主要描述所预测的3D边界框与基准边界框的接近程度。

为了计算带有方向的3D边界框之间的三维IoU，研究人员首先利用了Sutherland-Hodgman多边形裁剪算法来计算出两个有交叉的箱体各个面上的交叉点；随后利用凸包算法 (Convex Hull) 将交叉点构成的多边形所围成的体积计算出来；最后利用两个3D包围框的体积并集计算出整体的体积交并比。