趣文网 > 作文大全

首次加入语音 鼠标轨迹同步注释 谷歌900万注释图像数据集升级

2020-12-05 05:30:01
相关推荐

鱼羊 发自 云凹非寺量子位 报道 | 公众号 QbitAI

谷歌的900万注释图像数据集Open Images,再次进化。

这一次的V6版本,不仅增加1400种视觉关系注释类型,新增2350万个经过人工验证的图像级标签,包含250万个人类动作注释,还更新了新特性局部叙事(localized narratives)。

所谓局部叙事,是一种全新的多模式注释形式,包括所描述对象的同步语音、文本和鼠标轨迹。

△图源:谷歌博客

在Open Images V6中,有50万图像适用这一模式。

同时,谷歌也发布了COCO数据集的完整12.3万图像的局部叙事。

局部叙事

Open Images的这一次升级,重头戏就在于加入了局部叙事。

在Open Images V6中,新增了507444个局部叙事。

谷歌表示,这部分注释数据里,鼠标轨迹总长度约为6400公里;要念完所有的文本叙述,需要1.5年时间。

在研究、利用视觉和语言之间的联系时,通常会使用图像字幕,即图像及其描述文本之间的配对。

那么问题来了,文本中每个单词都对应到图像的哪一个部分呢?

局部叙事,这时就派上了用场。

这些注释由注释人员完成。注释人员在念出图像描述文本的同时,会将鼠标移动到单词对应的图像区域上。

并且,他们会手动纠正自动语音识别结果,确保语音、文本和鼠标轨迹三者对应正确且同步。

另一个有趣的应用点是,这些图像为探索人们描述图像的方式提供了潜在的研究途径。

因为谷歌并没有指定注释人员要用什么方式去移动鼠标,所以在这些注释中,你可以看到不同的指示对象的方式。

这可能会为新用户界面的设计带来灵感。

新的视觉关系,人类动作和图像级注释

除了局部叙事,Open Images V6还新增了大量新的视觉关系和人类动作注释。

比如在一张狗狗叼飞盘的图像中,除了狗狗和飞盘会被各自标记出来,“捕捉”这个动作也会被标记出来。

而对计算机视觉而言,理解人的行为也是一大研究重点。于是,Open Images V6中现在一共包含250万个人类动作,比如“跳跃”、“微笑”、“躺下”等等。

并且,在添加了2350万个新的经过人工验证的图像级标签后,Open Images V6里的图像级标签达到5990万个,涵盖19957个不同类别。

目前,Open Images V6共包含:

600种类别的可框住对象子集。包含1,743,042张训练图像,41,620张图像的验证集和125,436张图像的测试集。19,958种类别的图像级标签子集。训练集包含7,337,077张人工验证的注释图像和8,949,445张机器注释图像。完整集合包含9,178,275张图像。关于Open Images

Open Images是谷歌在2016年推出的大规模图像数据集,包括大约900万张图片,标注了数千个图像类别。

2019年,谷歌释出Open Images V5,新增了对图像分割掩码的注释。分割对象样本近280万个,覆盖350个类别,成为最大分割掩码数据集。

并且从2018年开始,谷歌就基于Open Images数据集发起了系列挑战赛。

谷歌希望,通过Open Images V6,能进一步刺激人们对真实场景的理解。

传送门

Open Images V6下载地址:https://storage.googleapis.com/openimages/web/index.html

谷歌博客:https://ai.googleblog.com/2020/02/open-images-v6-now-featuring-localized.html

— 完 —

阅读剩余内容
网友评论
相关内容
小编推荐

大家都在看

关于秋天的作文叙事 家庭风暴作文 最珍贵的礼物作文800字 作文那只手 四年级上册语文第三单元作文 令我陶醉作文 我学会了下棋作文 女人作文 黄瓜作文300字 父亲节英语作文80词 以后的生活作文 黄瓜炒鸡蛋作文 作文写作网课 观察落叶作文 与书相遇作文 龟兔赛跑的作文 英语作文20词左右 如何管理好班级作文 插叙作文800字 感动的事作文350字 妈妈真能干作文 珍惜时间400字作文 以蜕变为话题的作文 学会留心作文 假如我是天使作文 圣诞礼物作文 习爷爷我想对您说作文 相伴话题作文 绿水青山的作文 遇见春天作文600字