谷歌AI发布3D物体数据集，附带标记边界框、相机位姿、稀疏点云

见过3d物体数据集，见过会动的3d物体数据集吗？
每段动态视频都以目标为中心拍摄，不仅自带标注整体的边界框，每个视频还附带相机位姿和稀疏点云。
这是谷歌的开源3d物体数据集 objectron，包含 15000份短视频样本，以及从五个大洲、十个国家里收集来的 400多万张带注释的图像。
谷歌认为，3d目标理解领域，缺少像2d中的imagenet这样的大型数据集，而objectron数据集能在一定程度上解决这个问题。
数据集一经推出， 1.6k网友点赞。
有网友调侃，谷歌恰好在自己想“谷歌”这类数据集的时候，把它发了出来。
也有团队前成员表示，很高兴看到这样的数据集和模型，给ar带来进步的可能。
除此之外，谷歌还公布了用objectron数据集训练的针对鞋子、椅子、杯子和相机4种类别的3d目标检测模型。
来看看这个数据集包含什么，以及谷歌提供的3d目标检测方案吧~ （项目地址见文末）
9类物体，对ar挺友好
目前，这个数据集中包含的3d物体样本，包括自行车，书籍，瓶子，照相机，麦片盒子，椅子，杯子，笔记本电脑和鞋子。
当然，这个数据集，绝不仅仅只是一些以物体为中心拍摄的视频和图像，它具有如下特性：
注释标签（3d目标立体边界框）
用于ar数据的数据（相机位姿、稀疏点云、二维表面）
数据预处理（图像格式为tf.example，视频格式为sequenceexample）
支持通过脚本运行3d iou指标的评估
支持通过脚本实现tensorflow、pytorch、jax的数据加载及可视化，包含“hello world”样例
支持apache beam，用于处理谷歌云（google cloud）基础架构上的数据集
所有可用样本的索引，包括训练/测试部分，便于下载
图像部分的画风，基本是这样的，也标注得非常详细：
而在视频中，不仅有从各个角度拍摄的、以目标为中心的片段（从左到右、从下到上）：
也有不同数量的视频类型（一个目标、或者两个以上的目标）：
谷歌希望通过发布这个数据集，让研究界能够进一步突破3d目标理解领域，以及相关的如无监督学习等方向的研究应用。
怎么用？谷歌“以身示范”
拿到数据集的第一刻，并不知道它是否好用，而且总感觉有点无从下手？
别担心，这个数据集的训练效果，谷歌已经替我们试过了。
看起来还不错：
此外，谷歌将训练好的3d目标检测模型，也一并给了出来。（传送见文末）
算法主要包括两部分，第一部分是tensorflow的2d目标检测模型，用来“发现物体的位置”；
第二部分则进行图像裁剪，来估计3d物体的边界框（同时计算目标下一帧的2d裁剪，因此不需要运行每个帧），整体结构如下图：
在模型的评估上，谷歌采用了 sutherland-hodgman多边形裁剪算法，来计算两个立体边界框的交点，并计算出两个立方体的相交体积，最终计算出3d目标检测模型的 iou。
简单来说，两个立方体重叠体积越大，3d目标检测模型效果就越好。
这个模型是谷歌推出的mediapipe中的一个部分，后者是一个开源的跨平台框架，用于构建pipeline，以处理不同形式的感知数据。
它推出的mediapipe objectron实时3d目标检测模型，用移动设备（手机）就能进行目标实时检测。
看，（他们玩得多欢快）实时目标检测的效果还不错：
其他部分3d数据集
除了谷歌推出的数据集以外，此前视觉3d目标领域，也有许多类型不同的数据集，每个数据集都有自己的特点。
例如斯坦福大学等提出的 scannetv2，是个室内场景数据集，而scannet则是个rgb-d视频数据集，一共有21个目标类，一共1513个采集场景数据，可做语义分割和目标检测任务。
而目前在自动驾驶领域非常热门的 kitti数据集，也是一个3d数据集，是目前最大的自动驾驶场景下计算机视觉的算法评测数据集，包含市区、乡村和高速公路等场景采集的真实图像数据。
此外，还有waymo、semantickitti、h3d等等数据集，也都用在不同的场景中。（例如semantickitti，通常被专门用于自动驾驶的3d语义分割）
无论是视频还是图像，这些数据集的单个样本基本包含多个目标，使用场景上也与谷歌的objectron有所不同。
感兴趣的小伙伴们，可以通过下方传送门，浏览谷歌最新的3d目标检测数据集，以及相关模型~
objectron数据集传送门：
https://github.com/google-research-datasets/objectron/
针对4种物体的3d目标检测模型：
https://google.github.io/mediapipe/solutions/objectron
参考链接：
https://ai.googleblog.com/2020/11/announcing-objectron-dataset.html
https://ai.googleblog.com/2020/03/real-time-3d-object-detection-on-mobile.html

魅族发布新一代真无线蓝牙耳机POP2 官方称可能是全球续航最长的蓝牙耳机
5gwifi和5g网络的区别 5gwifi是不是只有5g手机才能用
超快激光技术及其应用
即插即用！复旦微和利尔达联合发布基于LoRa通讯的开发套件
韩国加速推动数字货币投放过程
谷歌AI发布3D物体数据集，附带标记边界框、相机位姿、稀疏点云
韩国KIST研发基于薄膜的陶瓷燃料电池，可应用于便携式和移动应用中
基于有限状态机的FPGA DSR路由表项设计和实现方法
城市大脑IOC中心将人工智能技术与城市管理有机融合
显示屏背光源管理解决方案
解读AMD的“分布式几何”新专利（GPU的完全小芯片方法）
怎样用树莓派通过HTTP从PHP网站发送SMS
洁面仪什么牌子好？肌肤清洁要彻底
三星电子明年将全力抢攻5G基地台及终端芯片市场
如何在Python中进行Elasticsearch操作？
北汽董事长徐和谊：特斯拉咄咄逼人“后补贴时代”呼唤颠覆性技术创新
如何对楼宇自控建筑智能化系统进行检测
低功耗、精准检测、超长待机，物联网设备助力实现“双碳”目标
快捷开发出P通道薄型WL-CSP MOSFET
关于手机防水透声组件在5G手机上的应用