发布 Objectron 数据集，推进对 3D 目标的理解_飞道的博客

发布 Objectron 数据集，推进对 3D 目标的理解

2021-01-20 17:43 968人阅读评论(0)

文 / Adel Ahmadyan 和 Liangkai Zhang，软件工程师，Google Research

机器学习 (ML) 技术日新月异，目前仅通过图片训练模型，就能在大量计算机视觉任务中取得卓越的准确率。基于这些成功快速发展的 3D 目标理解研究，为增强现实、机器人、自主性和图像检索等更广泛的应用提供动力。例如，我们在今年早些时候发布了一套专为移动设备设计的实时 3D 目标检测模型——MediaPipe Objectron，该模型在具有完全注解的真实世界 3D 数据集上训练，可以预测目标的 3D 边界框。

然而，与 2D 任务（例如 ImageNet、COCO 和 Open Images）相比，由于大型真实世界数据集的缺少，理解 3D 目标仍然是一项具有挑战性的任务。为了帮助科研界能够在 3D 目标理解领域持续取得研究成果，亟需发布以目标为中心，记录着更多 3D 结构信息的视频数据集，并使之能够匹配多种视觉任务的数据格式（例如视频或摄像头流），帮助对机器学习模型进行训练和基准测试。

Open Images
https://storage.googleapis.com/openimages/web/index.html

近日，我们发布了 Objectron 数据集，这是一个以目标为中心的短视频剪辑合集，包含大量从不同角度拍摄的常见目标。每个视频剪辑都随附 AR 会话元数据，如包括摄像头姿态和稀疏点云。数据还包含每个目标的手动标记 3D 边界框，描述目标的位置、方向和尺寸。数据集包含 1.5 万个带注解的视频剪辑，辅以收集自地理多样化样本的 400 多万个注解图像（覆盖五大洲的 10 个国家/地区）。

Objectron 数据集中的示例视频

Objectron 数据集
https://github.com/google-research-datasets/Objectron/

3D 目标检测解决方案

除了数据集以外，针对鞋子、椅子、杯子和摄像头这四类目标我们还分享了3D 目标检测解决方案并在 MediaPipe 中发布。MediaPipe 是 Google 的开源跨平台定制化 ML 解决方案框架，适用于实时和流媒体，同时支持设备端上手实时的手部、虹膜和身体姿态追踪等 ML 解决方案。

3D 目标检测解决方案在移动设备上运行的示例结果

3D 目标检测解决方案
http://solutions.mediapipe.dev/objectron
MediaPipe
http://mediapipe.dev
ML 解决方案
http://solutions.mediapipe.dev

不同于先前发布的单阶段 Objectron 模型，最新版本采用的是两阶段架构。第一阶段通过 TensorFlow 目标检测模型查找目标的 2D 裁剪。然后，第二阶段通过图像裁剪预估 3D 边界框，同时为下一帧计算目标的 2D 裁剪，因此目标检测器无需在每一帧都运行。第二阶段 3D 边界框预测器可在 Adreno 650 移动 GPU 上以 83 FPS 的速度运行。

TensorFlow 目标检测
https://github.com/tensorflow/models/tree/master/research/object_detection

参考示意图：3D 目标检测解决方案

3D 目标检测的评估指标

我们借助真实值注解，使用计算机视觉任务的常用指标 3D 交并比 (Interp over Union, IoU) 相似度统计，通过衡量边界框与真实值的接近程度，评估 3D 目标检测模型的性能。

我们提出了一种用于通用 3D 检测框计算的精确 3D IoU 值的算法。首先，我们使用 Sutherland-Hodgman 多边形裁剪算法计算两个框的面之间的交点。这类似于计算机图形学中的视锥剔除技术。交集体积由所有裁剪后的多边形的凸包 (Convex hull) 算得。最后，根据两个框的交集体积和并集体积计算 IoU。我们将在发布数据集的同时发布评估指标源代码。

评估指标源代码
https://github.com/google-research-datasets/Objectron

使用多边形裁剪算法计算 3D 交并比，左侧：对框进行多边形裁剪，计算每个面的交点；右侧：通过计算所有交点（绿色）的凸包来计算交集体积

数据集格式

Objectron 数据集的技术细节，包括使用教程，均可在数据集页面上获取。数据集包括自行车、书籍、瓶子、摄像头、谷物盒、椅子、杯子、笔记本电脑和鞋子，并与以下素材资源共同存储在 Google Cloud Storage 的 objectron 存储分区中：

视频序列
注解标签（目标的 3D 边界框）
AR 元数据（如摄像头姿态、点云和平面）
经处理的数据集：注解帧的乱序版本，图像的格式为 tf.example，视频的格式为 SequenceExample。
基于上述指标运行评估的支持脚本
将数据加载到 TensorFlow、PyTorch 和 Jax 并可视化数据集的支持脚本（包括“Hello World”示例）

数据集页面
https://github.com/google-research-datasets/Objectron
objectron 存储分区
https://storage.googleapis.com/objectron
Jax
https://github.com/google/jax

除数据集外，我们还开源了一个数据流水线，用于在流行的框架，如 TensorFlow、PyTorch 和 Jax 框架中解析数据集。同时提供了示例 Colab Notebook 示例。

Colab Notebook
https://github.com/google-research-datasets/Objectron

我们希望 Objectron 数据集能让科研界突破 3D 目标几何解析的极限。我们也希望促进新的研究和应用的发展，如视点合成、改进 3D 表征和无监督学习。请加入我们的邮件组或访问我们的 GitHub 页面，及时了解未来的活动和发展。

邮件组
https://groups.google.com/g/objectron

致谢

本文所述研究由 Adel Ahmadyan、Liangkai Zhang、Jianing Wei、Artsiom Ablavatski、Mogan Shieh、Ryan Hickman、Buck Bourdon、Alexander Kanaukou、Chuo-Ling Chang、Matthias Grundmann 和 Tom Funkhouser 完成。我们感谢 Aliaksandr Shyrokau、Sviatlana Mialik、Anna Eliseeva 以及注解团队的高质量注解。我们还要感谢 Jonathan Huang 和 Vivek Rathod 提供的 TensorFlow Object Detection API 指导。

查看评论

飞道的博客

飞道的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章

发布 Objectron 数据集，推进对 3D 目标的理解

* 以上用户言论只代表其个人观点，不代表本网站的观点或立场