首次加入语音鼠标轨迹同步注释谷歌900万注释图像数据集升级

2020-12-05 05:30:01

相关推荐

鱼羊发自云凹非寺量子位报道 | 公众号 QbitAI

谷歌的900万注释图像数据集Open Images，再次进化。

这一次的V6版本，不仅增加1400种视觉关系注释类型，新增2350万个经过人工验证的图像级标签，包含250万个人类动作注释，还更新了新特性局部叙事（localized narratives）。

所谓局部叙事，是一种全新的多模式注释形式，包括所描述对象的同步语音、文本和鼠标轨迹。

△图源：谷歌博客

在Open Images V6中，有50万图像适用这一模式。

同时，谷歌也发布了COCO数据集的完整12.3万图像的局部叙事。

局部叙事

Open Images的这一次升级，重头戏就在于加入了局部叙事。

在Open Images V6中，新增了507444个局部叙事。

谷歌表示，这部分注释数据里，鼠标轨迹总长度约为6400公里；要念完所有的文本叙述，需要1.5年时间。

在研究、利用视觉和语言之间的联系时，通常会使用图像字幕，即图像及其描述文本之间的配对。

那么问题来了，文本中每个单词都对应到图像的哪一个部分呢？

局部叙事，这时就派上了用场。

这些注释由注释人员完成。注释人员在念出图像描述文本的同时，会将鼠标移动到单词对应的图像区域上。

并且，他们会手动纠正自动语音识别结果，确保语音、文本和鼠标轨迹三者对应正确且同步。

另一个有趣的应用点是，这些图像为探索人们描述图像的方式提供了潜在的研究途径。

因为谷歌并没有指定注释人员要用什么方式去移动鼠标，所以在这些注释中，你可以看到不同的指示对象的方式。

这可能会为新用户界面的设计带来灵感。

新的视觉关系，人类动作和图像级注释

除了局部叙事，Open Images V6还新增了大量新的视觉关系和人类动作注释。

比如在一张狗狗叼飞盘的图像中，除了狗狗和飞盘会被各自标记出来，“捕捉”这个动作也会被标记出来。

而对计算机视觉而言，理解人的行为也是一大研究重点。于是，Open Images V6中现在一共包含250万个人类动作，比如“跳跃”、“微笑”、“躺下”等等。

并且，在添加了2350万个新的经过人工验证的图像级标签后，Open Images V6里的图像级标签达到5990万个，涵盖19957个不同类别。

目前，Open Images V6共包含：

600种类别的可框住对象子集。包含1,743,042张训练图像，41,620张图像的验证集和125,436张图像的测试集。19,958种类别的图像级标签子集。训练集包含7,337,077张人工验证的注释图像和8,949,445张机器注释图像。完整集合包含9,178,275张图像。关于Open Images

Open Images是谷歌在2016年推出的大规模图像数据集，包括大约900万张图片，标注了数千个图像类别。

2019年，谷歌释出Open Images V5，新增了对图像分割掩码的注释。分割对象样本近280万个，覆盖350个类别，成为最大分割掩码数据集。

并且从2018年开始，谷歌就基于Open Images数据集发起了系列挑战赛。

谷歌希望，通过Open Images V6，能进一步刺激人们对真实场景的理解。

传送门

Open Images V6下载地址：https://storage.googleapis.com/openimages/web/index.html

谷歌博客：https://ai.googleblog.com/2020/02/open-images-v6-now-featuring-localized.html

— 完 —

阅读剩余内容

注释数据集谷歌语音

首次加入语音鼠标轨迹同步注释谷歌900万注释图像数据集升级

从文本处理到自动驾驶：机器学习最常用的50大免费数据集

几千条文本库也能做机器学习！NLP小数据集训练指南

斯坦福发布全新对话问答数据集可评估机器参与问答式对话的能力

自动驾驶计算机视觉研究综述：难题数据集与前沿成果（附67页论文下载）

谷歌声音设计：怎样用文案和语言去营造一个温馨的家

生活教导：我初二生活800字初二作文

我初作文900字

找到免费的作文软件【600字】

900字中考作文：略有改动

郑燮诗文赏析：潍县署中寄舍弟墨第书

作文家乡的路【1000字】

月亮：篇闲谈散文

大家都在看

首次加入语音 鼠标轨迹同步注释 谷歌900万注释图像数据集升级

从文本处理到自动驾驶：机器学习最常用的50大免费数据集

几千条文本库也能做机器学习！NLP小数据集训练指南

斯坦福发布全新对话问答数据集 可评估机器参与问答式对话的能力

自动驾驶计算机视觉研究综述：难题 数据集与前沿成果（附67页论文下载）

谷歌声音设计：怎样用文案和语言去营造一个温馨的家

生活教导：我初二生活800字初二作文

我初作文900字

找到免费的作文软件【600字】

900字中考作文：略有改动

郑燮诗文赏析：潍县署中寄舍弟墨第书

作文家乡的路【1000字】

月亮：篇闲谈散文

大家都在看

首次加入语音鼠标轨迹同步注释谷歌900万注释图像数据集升级

斯坦福发布全新对话问答数据集可评估机器参与问答式对话的能力

自动驾驶计算机视觉研究综述：难题数据集与前沿成果（附67页论文下载）