昇腾CANN论文上榜CVPR,全景图像生成算法交互性再增强!
摘要:近日,CVPR 2022放榜,基于CANN的AI论文《Interactive Image Synthesis with Panoptic Layout Generation》强势上榜。
本文分享自华为云社区《昇腾CANN论文上榜CVPR,全景图像生成算法交互性再增强!》,作者:昇腾CANN 。
近日,CVPR 2022放榜,基于CANN的AI论文《Interactive Image Synthesis with Panoptic Layout Generation》强势上榜。这为AI发烧友们开辟了一条新的图像生成之路,让疫情肆虐下足不出户的你,随手选择几个类别的基础元素,并做大小和位置的拖动,便能自动生成一副摄影作品,堪比专业摄影师!
CVPR全称IEEE Conference on Computer Vision and Pattern Recognition,是计算机视觉领域三大顶会之一,并且是唯一一个年度学术会议。在快速更新迭代的计算机学科中,CVPR已然成为了计算机视觉领域的“顶流”。
本论文基于交互式的图像生成,提出基于全景布局(Panoptic Layout)辅助图像生成的方法,即PLGAN(Panoptic Layout Generation)算法,提高了交互场景下生成图像的质量及其稳定性。该论文在COCO-Stuff和VG两个公开数据集和自行收集的Landscape风景数据集上,进行了实验验证并取得了很好的效果。目前已经在华为Atlas系列服务器上实现了该算法,其配备了昇腾AI处理器提供算力支持,并借助异构计算架构CANN(Compute Architecture for Neural Networks)充分释放硬件澎湃算力,发挥极致AI性能。
论文链接:https://arxiv.org/abs/2203.02104
下面我们来看下对比交互式图像生成方法Grid2Im,本论文PLGAN算法的表现效果:LINK
大多数交互式图像生成方法,都采用生成图像布局(Layout)为中间结果,来辅助最终的图像合成(例如 Grid2Im [1])。为了解决交互场景下图像生成质量稳定性问题,我们从图像布局(Layout)构建入手。通常的图像布局(Layout)有逐像素填充的语义图层(例如GauGAN),还有基于Bounding Box的实例图像布局(Instance Layout)。
语义图层在空间布局上逐像素对应生成的图像,可以很好的控制需要合成的图像,但其构建比较复杂,因此大多数多模态图像生成和交互场景采用实例图像布局(Instance Layout)。然而,实例图像布局(Instance Layout)本质上是采用由不同物体的位置方框(Bounding Box)和形状(Mask)组合而成的,不同物体的位置方框(Bounding Box)之间和形状边缘的不匹配,都会出现图像布局填不满的情况,在用户交互的场景下尤其明显,这使得以此为条件的条件生成模型,在最终生成图像中出现伪影和噪声,如图1所示。因此构建一个可以解决此“区域缺失”问题的图像布局(Layout),是我们所关注的重点。
针对上述问题,我们引入全景分割[3]的概念,提出了基于全景布局(Panoptic Layout)的图像合成方法。在全景分割问题中[3],将物体类别分为了可数类(things)和不可数类(stuff),其中可数类(things)指有特定形状的前景类别,不可数类(stuff)指没有特定形状的背景类别。因此我们引入此概念,将通常的实例布局(Instance Layout)构建过程中分为Instance分支和Stuff分支分别处理可数类(things)和不可数类(stuff),如下图所示。
Instance分支采用通常的做法,先同时生成位置方框和形状,然后将其组合成实例布局(Instance Layout)。对于Stuff分支则使用全新的做法,直接生成填充布局(Stuff Layout),由于此结果是直接由模型通过Softmax层得到,其在整个图像空间上,不会有空缺部分,以此来解决“区域缺失”问题。因为对于不可数类别,其形状也不是固定的,这种整体生成的方式对于类别识别来说,不会带来很大的影响。分别生成的两个布局,可以通过ISA-Norm层来聚合到一起,形成最后的布局(Layout)。从布局(Layout)到最终的图像生成,我们采用SOTA模型CAL2I [2]方法,得到最终的合成图像。
在实验设计上,我们采用对公开数据集的标注信息做扰动的方式,模拟交互式场景下的输入,在指标和视觉对比上,都得到了SOTA(state of the art)水平,尤其在输入扰动的情况下,生成图像的质量更加稳定。
昇腾社区同步上新基于该论文的AI试玩应用,小伙伴们在给定的画布中,可以选择任意元素,大海、沙滩、天空,随心拼接拆合,然后通过华为Atlas 200DK推理,可实时生成独一无二的真实AI风景画,单击LINK快速访问。
特别福利:近期,我们也将邀请论文作者进行在线分享,欢迎关注“CANN训练营”活动,精彩不容错过!
参考文献:
[1] Oron Ashual and Lior Wolf. Specifying object attributes and relations in interactive scene generation. In Proceedings of the IEEE International Conference on Computer Vision, pages 4561–4569, 2019.
[2] Sen He, Wentong Liao, Michael Yang, Yongxin Yang, Yi-Zhe Song, Bodo Rosenhahn, and Tao Xiang. Context-aware layout to image generation with enhanced object appearance. In CVPR, 2021.
[3] Alexander Kirillov, Kaiming He, Ross Girshick, Carsten Rother, and Piotr Doll´ar. Panoptic segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9404–9413, 2019.
昇腾CANN论文上榜CVPR,全景图像生成算法交互性再增强!的更多相关文章
- 一键抠除路人甲,昇腾CANN带你识破神秘的“AI消除术”
摘要:都说人工智能改变了生活,你感觉到了么?AI的魔力就在你抠去路人甲的一瞬间来到了你身边.今天就跟大家聊聊--神秘的"AI消除术". 引语 旅途归来,重温美好却被秀丽河山前的路人 ...
- 开发实践丨昇腾CANN的推理应用开发体验
摘要:这是关于一次 Ascend 在线实验的记录,主要内容是通过网络模型加载.推理.结果输出的部署全流程展示,从而快速熟悉并掌握 ACL(Ascend Computing Language)基本开发流 ...
- 全解┃OpenStack Newton发布,23家中国企业上榜(转载)
(转载自Openstack中文社区) 陈, 翔 2016-10-8 | 暂无评论 美国奥斯汀时间10月6日(北京时间6日24点),OpenStack Newton版本正式发布,在可扩展性.可靠性和用户 ...
- 重磅榜单!互联网金融Top100总估值超1.1万亿,27家独角兽上榜!
时隔4个月,爱分析的“中国互联网金融企业估值排行榜”更新了! 在这4个月当中,我们调研了数十位企业创始人.专业投资人以及资深行业专家,尤其针对金服集团.消费金融.财富管理.征信等领域进行了深入研究.因 ...
- 2019年6月份Github上最热门的开源项目排行出炉,一起来看看本月上榜的开源项目
6月份Github上最热门的开源项目排行出炉,一起来看看本月上榜的开源项目有哪些: 1. the-art-of-command-line https://github.com/jlevy/the-ar ...
- CB Insights,201608月174家独角兽榜单出炉,上榜的33家中国公司都是谁?
全球最新独角兽榜单出炉,上榜的33家中国公司都是谁? Monica 2016-09-15 近日,美国市场调研公司CB Insights发布了全球独角兽榜单(估值10亿美元以上),共有来自21个国 ...
- Arctic Code Vault Contributor 上榜了 go-admin v1.1 beta 版本发布
Arctic Code Vault Contributor 上榜了,内心比较喜悦,谢谢开源社区的支持,也谢谢广大 coder 的支持: go-admin 是一个基于 Gin + Vue + Eleme ...
- CVPR2020论文介绍: 3D 目标检测高效算法
CVPR2020论文介绍: 3D 目标检测高效算法 CVPR 2020: Structure Aware Single-Stage 3D Object Detection from Point Clo ...
- 在Hadoop上运行基于RMM中文分词算法的MapReduce程序
原文:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/ 在Hadoop上运行基于RMM中文分词 ...
随机推荐
- 【BZOJ2654】tree(生成树 二分)
题目链接 大意 给你一个无向带权连通图,每条边是黑色或白色,求一棵最小权的恰好有\(Need\)条白色边的生成树. 题目保证有解,输出最小权值. 其中每条边权在\([1,100]\)范围内. 思路 首 ...
- pytest(7)-yield与终结函数
通过上一篇文章,我们已经知道了pytest中,可以使用Fixture来完成运行测试用例之前的一些操作如连接数据库,以及测试执行之后自动去做一些善后工作如清空脏数据.关闭数据库连接等. 我们已经学会了f ...
- 2、前端--初见前后端交互、CSS简介、基本选择器、组合选择器、属性选择器、分组与嵌套、伪类选择器
今日内容概要 初窥后端框架 css简介 css选择器 今日内容详细 初次体验前后端交互 # 代码无需掌握 只看效果即可 """后端框架:可以简单的理解为别人写好的一个非常 ...
- 38、python并发编程之IO模型
目录: 一 IO模型介绍 二 阻塞IO(blocking IO) 三 非阻塞IO(non-blocking IO) 四 多路复用IO(IO multiplexing) 五 异步IO(Asynchron ...
- Centos下Ambari2.7.5的编译和安装
前言 终于,要开始写点大数据相关的文章了.当真的要开始写老本行的时候,还是考虑了挺久的.一是不知道从何处写起,二是如何能写点有意思的. 我们常说,过程比结果重要.也是有很多人喜欢准备完全之后,才会开始 ...
- 分析CC攻击以及防御
实验目的 了解DDoS攻击原理,及一个DDoS攻击的过程 实验内容 了解DDoS攻击原理,及一个DDoS攻击的过程 实验环境描述 1. 学生机与实验室网络直连: 2. VPC1与实验室网络直连: 3. ...
- BI开创者Tableau“出走中国”,中国BI用户该何去何从?
11月,Tableau在发给客户的邮件中透露将停止中国的直销业务,加入阿里的合作体系.消息来的如此突然,Tableau的同仁.合作伙伴.客户.用户.爱好者,甚至友商,无一不感到震惊和担忧. 在我们数据 ...
- 十大经典排序算法(java实现、配图解,附源码)
前言: 本文章主要是讲解我个人在学习Java开发环境的排序算法时做的一些准备,以及个人的心得体会,汇集成本篇文章,作为自己对排序算法理解的总结与笔记. 内容主要是关于十大经典排序算法的简介.原理.动静 ...
- (转载)虚拟化(3):os调度策略。
转自:https://zhuanlan.zhihu.com/p/38046313 这一章主要是介绍几个简单的调度器策略.内容比较简单,就简单汇总下. 首先我们对现有的计算机环境有如下几个假设: 1.每 ...
- COS 音视频实践 | 数据工作流助你播放多清晰度视频
前言 你是否遇到过这样的场景: 兴致勃勃地观看心爱的视频,正当到了激动人心的高潮部分,却突然因为网速过差被迫陷入"转圈圈"的人生以及社会的大思考中. 又或者是身为网速畅通无阻的vi ...