这个CV数据集生成器火了,支持13类CV任务,DeepMind等打造丨开源

2022-05-21科技172

萧箫 发自 凹非寺量子位 | 公众号 QbitAI

这年头,AI玩家们想找到合适的图像数据集,简直是越来越难了。

不仅数据质量参差不齐,合适的数据类型也难找(如光流图、深度图等)。

为了解决这些问题,来自谷歌、MIT、DeepMind、MILA和剑桥大学等11家机构的34名研究人员,联手打造了一个名叫Kubric的数据集生成器,不仅能自己渲染,而且图像效果也非常真实。

不仅各种图像数据都能做,像语义分割、深度图或光流图这种“特殊数据”都能一键生成:

还能控制渲染的真实度,渲染出的视频可以达到以假乱真的效果:

据作者们表示,目前Kubric支持13类CV任务的数据类型生成,效果也不比用已有数据集训练出来的差。

这样的一个数据集生成器,到底要怎么上手?

可生成13类CV任务所需数据先来看看这个Kubric数据集生成器究竟是个啥。

简单来说,它有点像是一个专为图像AI打造的“数据车间”,基于跨平台开源物理引擎PyBullet和3D图像渲染软件Blender打造。

其中,PyBullet给用户提供了一个模拟3D物体运动的平台,例如两个球之间的弹性碰撞参数就可以用它来模拟。(当然,除了PyBullet以外,也可以扩展到其他物理引擎如MuJoCo上)

Blender则是一个渲染3D动画的平台,但它的优势在于操作方便,而且既可以做出照片级逼真的渲染图像,也可以输出3D动画效果。(例如有设计师拿它设计服装纹理)

可能这时候你会问,Kubric相比自己手动渲染视频或图像数据集,方便在哪?

一方面,Kubric自带一系列预处理的基础图像数据库。

除了11个基础3D模型以外:

还内置了Google Scanned Objects(GSO)室内家具物品数据集中的一系列模型,以及包含背景、光照、材料纹理等参数的Polyhaven数据集,还有ShapeNet数据集等(包含55种常见的物品类型及51300个3D模型)。

也就是说,如果你对渲染不太了解,也能利用内置的数据库快速生成想要的图像。

另一方面,Kubric直接提供了从“渲染数据”到输出“AI训练数据”的管道,省去了将渲染图像转成特殊数据(如深度图、光流图)、或是额外收集如视场、相机参数、光照等数据的麻烦。

这也使得Kubric支持生成13类CV任务所需的图像数据,具体包括光流、NeRF、姿态估计、3D重建等。

没错,即使这些生成的图像中有2D也有3D类型,需要的数据量也从MB到TB级别不等,但Kubric都能满足。

嗯,作者们还专门针对各种视觉任务,用Kubric生成的数据集一个个试了试,强调“用他们生成的数据集效果更好”。

△Kubric生成的光流图

那么,这样的数据集生成器究竟要怎么用呢?

自带Python接口作者提供了一些简单的操作流程。

在安装之后,第一步就是创建默认场景:

然后,再通过这两步,分别创建一块地板、和一个球体(也可以换成其他形状):

接下来就是在场景中加一个照明,以及渲染摄像头采集图像:

导出文件后,就能获取一个3D球体的图像了:

△Blender中的效果

如果需要深度图、灰度图等特殊图层的话,也是几行代码就能搞定:

比自己手动导出要更方便一些:

当然,如果还是感觉上手较难,作者也直接提供了示例代码,改改参数就能用:

在原基础上,再加5行代码就能直接运行出动态视频版:

看起来,做完数据集后,即使不懂渲染的也能成为半个行家了(doge)

目前新的一批内置数据集还在施工中,感兴趣的小伙伴可以先上手试玩~

项目地址:

论文地址:

参考链接:

— 完 —

量子位 QbitAI · 新知号签约

关注我们,第一时间获知前沿科技动态

相关文章

张惠妹和莫文蔚,谁的好歌更多?

张惠妹和莫文蔚,谁的好歌更多?如果以歌曲的好坏来答题,无须质疑是张惠妹!但显然不能单单一句话就肯定了答案!我从几个方面来讲一下! 其一:歌曲多与少 张惠妹号称经典歌曲100首!莫文蔚号称经典歌曲30首!当然这是网友自己做的一个统计!不用想水分一定有!我们从字面上其实也可以看出!以歌曲的数量张惠妹已经...

许仙志谁写的?好看吗?

许仙志是‘说梦者’写的 这本书很难说好不好看,书中的气氛总是淡淡的,作者对于高潮的营造在我认为实在是不怎么理想。 但是在现在仙侠泛滥的小说中,这本书的确是与众不同。 首先是作者把中国传统故事与现代仙侠做了一定的融合,然后再加上自己的理解创造出了一个完全异于其他仙侠小说的背景。 人物的刻画还算到位,...

《全球高武》那么无聊,怎么还会在起点排名那么高?

在这个中原五白都不停地水,甚至连水都不愿水,日更变成周更的年代,老鹰吃小鸡已经算是一个很勤奋的人了,这一点不吹也不黑。 看上图就明白,老鹰吃小鸡每天字数基本都更一万字以上,已经算是很勤奋了。网文届常说太监败人品,这话的确不假,有谁会追更一个太监的书呢?! 之前一本重生之财源滚滚已经积累了不少的人气,...

为什么《21世纪资本论》会受到大量批评?

70后法国经济学家皮凯蒂写的《21世纪资本论》这本书,在西方国家经济学界引起了较大争议,有批评也有点赞的不同声音。 该书的内容并不是什么新内容,作者主要关注资本主义社会下的财富和财富分配问题,之所以引发西方经济学界争议,主要是针对作者提出的“奇怪的观点”。不过,从皮凯蒂阐述的内容和观点来看,可比马克...

游戏类的小说有推荐吗?

整理了一些网站比较有名的游戏小说,也不算全面,排名不分先后。 1、《全职高手》 作者:蝴蝶蓝 网游荣耀中被誉为教科书级别的顶尖高手,因为种种原因遭到俱乐部的驱逐,离开职业圈的他寄身于一家网吧成了一个小小的网管,但是,拥有十年游戏经验的他,在荣耀新开的第十区重新投入了游戏,带着对往昔的回忆,和一把未完...

唐七的《三生三世十里桃花》抄袭桃花债拍了电视剧可粉丝说电视剧归电视剧,这合理吗?

我记得以前有看过事件缘由,最开始唐七确实有承认抄袭,桃花债作者表示不会追究,后面又有一系列变故。虽然有人说大风刮过(桃花债)作者是蹭热度,但是我很不赞同。小说本来就有涉嫌抄袭,只不过在电视剧(我现在也在追这电视剧)没有爆发之前只有看小说的粉丝才知道,播出之后是更多人关注这部小说,当然就更多人知道这个...

《昆虫记》主要写了什么内容?

《昆虫记》记录了,法国科学家法布尔一生的心血,描述了小小的昆虫恪守自然规则,为了生存和繁衍进行着不懈的努力。 书中深刻地描绘一种或几种昆虫的生活,其中包括蜘蛛、蜜蜂、螳螂、蝎子、蝉、甲虫、蟋蟀、苍蝇等。用通俗易懂、生动有趣和散文的笔调,深入浅出地介绍了他所观察和研究的昆虫的外部形态、生物习性,真实地...

酒店巨头华住陷“丑闻”,1.3亿人开房记录疑似被网上售卖,你怎么看?

如果一旦查出属实,那么可能这次数据泄露算是国内目前严重的一次信息泄露事件。 某网站中文论坛中出现一个帖子,声称售卖华住旗下所有酒店数据,汉庭酒店、美爵、禧玥、漫心、全季、宜必思、海友等多家酒店都包含在内。根据帖子内容,售卖的数据分为三个部分:华住官网注册资料,包括姓名、手机号、邮箱、身份证号、登录密...

求异界争霸小说,要夺权的?

  要兼备魔法斗气+重生/穿越+无敌+争霸+成神的文太少了,符合其中一两个条件或许还能找到。 我推荐我认为符合其中某一个或者某两个条件的文吧。  《怒荡千军》作者:开荒(已完结)   有点种马,3个女主,星际战争题材,很有银英的味道。  正统的星战文,穿越背景完全可以忽视掉,我觉得这个穿越就是作者为...

创建限制更新数据的触发器,限制将SC表中不及格学生的成绩改为及格(可以帮我解释一下以下代码吗?)?

给你加了注释createtriggertri_grade--创建一个叫tri_grade的触发器onscforupdate--在sc表上update时触发asifupdate(grade)--如果修改的是grade字段ifexists(select*frominsertedjoindeleted--...

春日这首诗是什么意思?

风和日丽游春在泗水之滨,无边无际的风光焕然一新。谁都可以看出春天的面貌,春风吹得百花开放、万紫千红,到处都是春天的景致。春日宋代:朱熹胜日寻芳泗水滨,无边光景一时新。等闲识得东风面,万紫千红总是春。创作背景这首诗从字面意思看来,是作者春天郊游时所写的游春观感,王相注《千家诗》,就认为这是游春踏青之作...

DNF萌新回归想买个称号,请问使徒降临和超越极限者哪个好,买哪个性价比更高一些?

大家好,我是爱玩DNF的小欧。DNF中称号是提升伤害的主要装备之一,拍卖行也是有很多称号在售卖的,比如往年的春节称号,金秋称号,以及换装称号等。 今年的春节礼包曝光之后,坚持了三年的龙之挑战也将倒下了,今年春节称号较以往的春节称号多了3%力智,2%白字,这也是龙之挑战为什么会倒下的原因,但这个称号会...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。