ACM TOMM 2017最佳论文：让AI接手繁杂专业的图文排版设计工作

编者按：你是否曾经为如何创作和编辑一篇图文并茂、排版精美的文章而烦恼？或是为缺乏艺术灵感和设计思路而痛苦？AI技术能否在艺术设计中帮助到我们？今天我们为大家介绍的这篇论文，“Automatic Generation of Visual-Textual Presentation Layout”（图文排版的自动生成算法研究），刚刚被美国计算机学会会刊ACM Transactions on Multimedia Computing, Communications and Applications （TOMM）授予2017 Nicolas D. Georganas 最佳论文奖，希望为大家在进行富媒体内容创作和分享时提供一个独到的思路和方法。

论文的联合作者是杨绪勇（微软亚洲研究院和中国科技大学联合培养博士生，喂车车联合创始人）、梅涛（微软亚洲研究院资深研究员，美国计算机协会杰出科学家，国际模式识别学会会士）、徐迎庆（前微软亚洲研究院主管研究员，清华大学美术学院信息艺术设计系主任）、芮勇（前微软亚洲研究院副院长，联想CTO）、李世鹏（前微软亚洲研究院副院长，硬蛋CTO）。祝贺研究院的各位研究员和院友们！

当今富媒体的内容之多是前所未有的，人们每时每刻都在创造和分享着海量信息，特别是内容繁杂的图像和文字信息，其中图文混排的内容模式已经成为主流。而在内容创作过程中，人们面临的一个巨大的挑战就是如何针对内容多样的图像和文字信息来设计吸引眼球的版面（例如，杂志封面、海报、或者PPT演讲稿等）。这个问题无论是对于商业印刷、在线期刊与杂志，还是用户生成的内容表达，都极为重要。图文内容的排版涉及到大量的专业知识，包括视觉传达、信息艺术设计、色彩与美学、平面规划、几何构图等等。以往的图文排版设计工作，不仅需要具有丰富专业知识的设计师，而且还耗费大量的人工。如何让计算机根据图文内容来自动进行排版是一个非常困难的问题。

从2013年底开始，来自微软亚洲研究院的研究员与来自清华大学美术学院的艺术设计专家，在这个科学与艺术相融合的领域开展了深入地合作。他们把设计学中的审美原则与可计算的图像特征相结合，创造性地提出了一个可计算的自动排版框架原型。该原型通过对一系列关键问题的优化（例如，嵌入在照片中的文字的视觉权重、视觉空间的配重、心理学中的色彩和谐因子、信息在视觉认知和语义理解上的重要性等)，把视觉呈现、文字语义、设计原则、认知理解等领域专家的先验知识自然地集成到同一个多媒体计算框架之内，并且开创了“视觉文本版面自动设计”这一新的研究方向。

图1 利用算法自动产生的图文排版效果。注：原始输入是一张纯图片（即没有任何文字）和一段纯文本（如主标题和副标题等），输出是图文混排的结果（文字嵌入图片之中）。

这项研究将通用的美学感知进行了体系的数学表达，构建了一套和主题相关的图文排版设计模版库，并提出一套可计算的图文合成框架原型，既融合了宏观层面自上而下的美学感知，又包含了微观层面自下而上的图文特征。通过融合人脸、文字检测以及视觉显著性检测算法，率先提出了视觉注意力检测算法，构成了整幅图像的重要性图和注意力图；在针对文字布局的算法中，这篇论文将文字块的形状和图像中的重要性图交互过程量化为一个能量最优化问题：

是图1中文本侵入显著视觉对象的成本，即尽量减少文本和重要视觉对象的交叉;表示空闲视觉空间的浪费，即充分利用图像中的可用视觉空间，以最大化文字的突出效应；而

则代表文本块的语义重要性和视觉感知重要性

之间的不匹配，即将最重要的文字内容匹配到图像中最重要的视觉区域，以便于阅读时快速获得关键信息。能量最优化的求解过程，在设计模版的美学感知原则的监督下，使得最后的求解结果能符合视觉审美需求，而不仅仅是计算机的最优求解结果。

在文本空间布局后，通过对图像前后景显著颜色的分析，在色彩和谐最优化框架中，保持色彩整体和谐，并最大化文字和背景色彩的差异以使得最后的图文混排能在全局尊重原图的色彩和谐性，又能在局部保证文字的可阅读性。全局色彩的和谐计算采用了著名的“Color Harmonization”中提出的心理学色彩模型，并结合了这篇论文中提出的图像前后景主题色在不同主题下的模型偏好，从而找到最适合的全局主题色。针对局部的视觉对比度最大化，论文提出了最远色调角黄金取样法，即找到文本覆盖背景下图像的显著颜色映射到tone和hue空间，在二维色调空间（tone, hue）求最远点，并取显著颜色点到最远点的黄金分割点。通过整个框架，能完成整个图文设计在美学感知监督下的自动化。

图2 系统框图

这篇论文提出的系统允许用户上传具体主题的视觉背景图像以及一些文本语句。并在第二阶段对原始图像进行了处理，通过结合显著值、脸部、文本以及目光注意力图以获取视觉感知图，进而重新调整图像的大小，使之符合目标布局尺寸，并根据视觉感知图保留重要的区域。重新调整过的图像就能用来排列空间分布的布局模板。当图像调整后，已有的语句、空间布局以及文本就通过第三阶段中的能源优化工艺重叠在背景图像上了。在第四阶段的文本着色上，首先分析经过剪裁的图像的调色板，同时根据主题属性挑选主题色彩。应用特定色相/色调模型、调色板、语义色彩以及内容特点，就可以通过保持局部色彩和谐以及局部可读性对文本进行重新着色。

图3 布局算法（a）带有目光注意力（黄色）的视觉重要性图（灰色）；（b）从前5个模板中挑选出的模板；（c）输入文本；（d）排印程序的细节，这里能源定义为E(L)，通过迭代控制字体高度，在局部优化解决方案中会被最小化，；（e）受到下向上的图像特点和自上向下的空间布局限制的排印结果。

图4 色彩分析与优化的示意图

这篇论文发表之后，得到学术界的广泛关注，从2016年至今在ACM数据库中已有超过260次下载。此外，该项研究不仅具有重要的理论意义，而且具有广泛的应用价值。例如，论文提出的基于图像内容的颜色检测算法已经在实际产品Office Sway中得到应用。目前每个月有来自全球60多个国家的超过40多万用户在使用Office Sway这一新产品开展设计。

这篇论文展现了多媒体与艺术设计以及颜色心理学几个不同学科的深度融合，将人工智能的方法用于艺术设计中。可以说，颜色心理学的模型为多媒体设计打开了”心灵“的窗口，而美学设计思维则为多媒体分析展开了想象的翅膀！

立即访问http://market.azure.cn

ACM TOMM 2017最佳论文：让AI接手繁杂专业的图文排版设计工作的更多相关文章

InfoQ一波文章：AdaSearch/JAX/TF_Serving/leon.bottou.org/Neural_ODE/NeurIPS_2018最佳论文
和 Nested Partition 有相通之处? 伯克利提出 AdaSearch:一种用于自适应搜索的逐步消除方法在机器学习领域的诸多任务当中,我们通常希望能够立足预先给定的固定数据集找出问题的答 ...
FPGA 17最佳论文导读 ESE: Efficient Speech Recognition Engine with Compressed LSTM on FPGA
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.机器学习技术感兴趣的同学加入. 后面陆续写一些关于神经网络加 ...
NIPS2018最佳论文解读：Neural Ordinary Differential Equations
NIPS2018最佳论文解读:Neural Ordinary Differential Equations 雷锋网2019-01-10 23:32 雷锋网 AI 科技评论按,不久前,NeurI ...
人工智能顶级会议最佳论文里的“DaDianNao”是什么鬼？
最近对人工智能领域的 AI 加速芯片感兴趣,在翻阅 Google 的第一代 TPU 论文时,在相关工作中看到了 DaDianNao,PuDianNao,ShiDianNao.看的我一脸懵逼,这是什么? ...
AAAI 2021 最佳论文公布
作者:Synced 翻译:仿佛若有光第三十五届 AAAI 人工智能会议 (AAAI-21) 以虚拟会议的形式拉开帷幕.组委会在开幕式上公布了最佳论文奖和亚军.三篇论文获得了最佳论文奖,三篇被评为 ...
USENIX 最佳论文奖：擦除 Windows Azure 存储编码
我们发表了一篇介绍Windows Azure 存储如何用编码方式擦除数据的论文,此论文在 2012 年 6 月的 USENIX 技术年会上荣获最佳论文奖.这是 MicrosoftResearch ...
ACM ICPC 2017 Warmup Contest 9 I
I. Older Brother Your older brother is an amateur mathematician with lots of experience. However, hi ...
ACM ICPC 2017 Warmup Contest 9 L
L. Sticky Situation While on summer camp, you are playing a game of hide-and-seek in the forest. You ...
KDD 2018 | 最佳论文：首个面向Facebook、arXiv网络图类的对抗攻击研究
8 月 19 日至 23 日,数据挖掘顶会 KDD 2018 在英国伦敦举行,昨日大会公布了最佳论文等奖项.最佳论文来自慕尼黑工业大学的研究者,他们提出了针对图深度学习模型的对抗攻击方法,是首个在属性 ...

随机推荐

May we can use Turbolinks or Pjax in our web apps
Turbolinks[1]: Turbolinks makes following links in your web application faster.Instead of letting th ...
Linux系统下如何设置IP地址？
Linux系统下如何设置IP地址?我们可以通过命令设定IP的方法,不过此方法的前提条件是用户需root权限.在linux系统的 /etc/sysconfig/network-script/ifcfg- ...
Coding-Job：从研发到生产的容器化融合实践
大家好,我是来自 CODING 的全栈开发工程师,我有幸在 CODING 参与了 Coding-Job 这个容器化的编排平台的研发.大家对 CODING 可能比较了解, Coding.net 是一个一 ...
web前端之Html和Css应用中的细节问题
1.居中的n种方法:①.margin: 0 20%; ——设置margin上下外边距的值设置为0,左右外边距设置成相同的百分比,既可将盒子居中. ②.margin: 0 auto;width: 100 ...
使用军哥的lnmp配置虚拟主机,需要注意的是要配置hosts文件
#使用军哥的lnmp配置虚拟主机,需要注意的是要配置hosts文件(这一点官方没有讲到)具体方法:1.修改hosts文件sudo vim /etc/hosts 2.在hosts文件中新增一行(这里类似 ...
Working Experience - WPF 中 DataGrid 控件的应用
问题: 添加控件后, 编辑单元格会出现异常绑定 ItemsSource 属性后, 更新绑定对象的数据, UI 不刷新如何显示控件中 ComboBox 类型解决方法: 绑定 ItemsSource ...
SQL SERVER动态列名
在ms sql server实现动态呈现列的方法很多.下面Insus.NET解决也算是另外一种参考. 如: 准备实现功能的数据: ) NOT NULL PRIMARY KEY) INSERT INTO ...
Elastic-job使用及原理
一.原理 elastic-job有lite版和cloud版,最大的区别是有无调度中心,笔者采用的是lite版本,无中心化. tips: 第一台服务器上线触发主服务器选举.主服务器一旦下线,则重新触发选 ...
转载-聊一聊深度学习的activation function
目录 1. 背景 2. 深度学习中常见的激活函数 2.1 Sigmoid函数 2.2 tanh函数 2.3 ReLU函数 2.4 Leaky ReLu函数 2.5 ELU(Exponential Li ...
BitMap的原理以及运用
位图(Bitmap),即位(Bit)的集合,是一种数据结构,可用于记录大量的0-1状态,在很多地方都会用到,比如Linux内核(如inode,磁盘块).Bloom Filter算法等,其优势是可以在一 ...

ACM TOMM 2017最佳论文：让AI接手繁杂专业的图文排版设计工作

ACM TOMM 2017最佳论文：让AI接手繁杂专业的图文排版设计工作的更多相关文章

随机推荐

热门专题