当前位置:首页 > 短视频剪辑 > 正文

谷歌新发布Objectron短视频剪辑数据集,3D目标检测更真实准确!

2020-12-19 15:03:04 暂无评论 短视频剪辑

From: MediaPipe 编译: T.R


当前,有关计算机视觉的算法,已经可以通过标注的三维边界框从图像中习得目标的空间位置,但充分理解三维空间中的目标依然是充满挑战的任务。其主要原因在于,与超大规模的2D标注数据相比 (例如:ImageNet,COCO,和Open Images) ,三维目标检测任务还缺乏大规模的标注数据。

因此,从学术界到工业界,都迫切需要以目标为中心的三维视频标注数据,以促进对真三维目标的更深入理解。



由于视频流在计算机视觉中的应用十分普遍,所以基于视频流的标注数据将会帮助算法抽取更多结构数据,促进算法的性能提升。


为了解决这一问题,谷歌最近发布了一系列由短视频片段构成的、以目标为中心的Objectron三维目标标注数据集,覆盖了多种常见的目标和不同的拍摄角度。同时还包含了AR格式的元数据,包括相机位姿和稀疏点云。其中每一个目标都被手工标注,对位置、朝向和维度等方面进行了描述。数据集共包含了15K标注视频片段,涵盖了超过4M标注图像,这些图像的地理位置覆盖五个大洲十个国家,进一步提高了目标的丰富程度。


Objectron数据集中的标注视频样例


三维目标检测解决方案


为了验证新数据集的性能,研究人员还提出了双阶段的三维目标检测基线方案,用于检测四类常见的目标。下图显示了新算法在视频中的性能。当相机中运动目标的边界框保持稳定且连续,新算法准确地定位了目标在视频中的空间位置。


检测结果样例,所有的模型在移动端运行


先前的目标检测方法是通过单阶段的网络模型实现的,其主干网络利用了基于MobileNet的编码器-解码器架构,在多任务学习的同时,通过预测目标的形状来实现检测与回归。其流程如下图所示:



而新提出的方法采用了两阶段的检测架构。其第一阶段首先使用了Tensorflow中的目标检测模型,从图像中找到目标的二维切片;而后,第二阶段基于前一阶段的图像切片来估计目标的三维边界框,同时计算下一阶段目标所处的切片位置,这使得第一阶段的目标检测模型无需在每一帧都运行,从而提升了整个算法流程的效率。实验表明,基于这种双阶段算法的目标检测可以在Adreno 650移动端GPU上实现每秒83帧的处理速度。下图显示了双阶段方法的处理框架:



可以看到,第一帧被送入目标检测模型后得到存在目标的图像片,而后第二阶段的预测模型将同时预测三维边界框和下一帧目标所处的图像区域。下一帧图像直接输入到第二阶段的模型中进行处理,依次类推对视频流进行处理。


性能测评基准


与二维领域的目标检测一样,三维目标检测也需要有效的指标来测试算法的性能。研究人员用3D的IoU来描述目标检测算法的效果,主要描述所预测的3D边界框与基准边界框的接近程度。


为了计算带有方向的3D边界框之间的三维IoU,研究人员首先利用了Sutherland-Hodgman多边形裁剪算法来计算出两个有交叉的箱体各个面上的交叉点;随后利用凸包算法 (Convex Hull) 将交叉点构成的多边形所围成的体积计算出来;最后利用两个3D包围框的体积并集计算出整体的体积交并比。


左图展示了如何计算每一个面上交叉区域的多边形 (绿色) ;右图展示了通过每个面上的多边形顶点,如何利用凸包算法计算出整体的重叠体积 (绿色) 。

数据集细节


目前数据集已经开放下载,其中包含的数据类别如下图所示:



数据集中主要包含了视频序列、标注序列、AR元数据,同时数据集还提供了预处理好的格式。此外还包括数据集前处理、加载、读入,3D IoU的评测以及序列数据的处理教程,支持Tensorflow、PyTroch和Jax等不同框架的应用。


前往下面的链接地址,可以找到更为详细的数据处理教程:

https://github.com/google-research-datasets/Objectron


re:
https://giphy.com/gifs/walkcycle-bennybox-xT8qBnsu1ZOamVcPCg
https://dribbble.com/shots/5931773-Isometric-gift-box-animation
https://dribbble.com/shots/4934623-Box-Doggie
https://dribbble.com/shots/11608397





扫码观看!

本周上新!

 


 征稿啦!


想让你的工作获得更多关注?

想与更多大佬进行学术交流?

公众号后台回复【投稿】
一键获取投稿方式!


关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金


将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。


如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给“门”: 

[email protected]

    

点击右上角,把文章分享到朋友圈


扫二维码|关注我们

让创新获得认可!

微信号:thejiangmen


点击“?在看”,让更多朋友们看到吧~


文章转载自微信公众号将门创投

博客主人破茧短视频培训
破茧短视频为你分享抖音、快手等短视频平台的视频拍摄、剪辑和运营技巧,另有短视频培训学习教程,海量干货助你玩转短视频运营!。
  • 51952 文章总数
  • 4875966访问次数
  • 2205建站天数