图形顶会SIGGRAPH上的五大视觉黑科技：AI届的神笔马良来了

2021-01-01 11:35:01

相关推荐

智东西8月5日消息。美国当地时间8月1日，国际计算机图形和交互技术会议SIGGRAPH 2019在美国洛杉矶落幕，为期三天的会议聚集了来自世界各地的研究人员、科学家和商业人士等专家，他们就机器人、自动驾驶汽车、图形图像技术以及制造等领域进行了深入的研讨。

SIGGRAPH（Special Interest Group for Computer GRAPHICS，计算机图形和交互技术特别兴趣小组）成立于1967年，由布朗大学（Brown University）教授Andries van Dam和IBM的Sam Masta共同发起，主要推广和发展计算机绘图和动画制作的软硬件技术。

自1974年起，美国计算机协会计算机图形专业组（ACM SIGGRAPH）每年都会组织一次SIGGRAPH会议，并逐渐发展为图形学界最具权威和影响力的国际会议。

同时，各领域研究人员们也将会在SIGGRAPH会议上为大家展示丰富的研究成果，并发表大量学术研究报告，不断给艺术、科学和自适应技术等领域带来新的研究方向和发展驱动力。

为此，智东西特别为大家梳理了SIGGRAPH 2019上已公开的学术研究报告。

今年，SIGGRAPH共收录了143篇学术论文，涉及图像科学（Photo Science）、VR和AR（VR and AR）、神经渲染（Neural Rendering）和设计和布局（Design and Layout）等32个研究领域。

针对这些领域，智东西精选出了5项涵盖图像科学（Photo Science）、视频（Video）和设计与布局（Design and Layout）3大领域的创新性研究，并为大家一一解读。

简单几笔生成逼真新照片

近年来，针对图像识别和处理的研究一直是AI研究人员们在利用人工智能算法处理图像方面的一大热点。

AI识别对抗性图像、AI学习创作达芬奇等艺术风格画作、AI识别换脸以及前段时间大火的“变老”AI神器FaceAPP等技术和应用，都是研究人员们长期以来在该领域的研发成果。

从SIGGRAPH收录的学术论文中不难发现，今年研究人员们在图像科学领域可谓是卯足了劲开发新花样。

其中，一篇名为《基于生成图像优先级的语义图像处理（Semantic Photo Manipulation with a Generative Image Prior）》的研究论文中，描绘了一个叫GANPaint Studio的黑科技，赚足了人们的眼球。

GANPaint Studio是一个由MIT CSAIL、IBM Research、MIT-IBM沃森AI实验室和香港中文大学的研究人员们共同研发的后期图像处理工具，人们能通过它随心所欲地上传图片并进行修改和编辑。

例如为建筑更换屋顶的设计、给房间设计一个新的窗户、让植被变换更换不同季节的颜色……这些编辑过程不仅具有选择性，而且编辑过后的图像也显得十分逼真。

当用户在GANBrush用户界面上传图像后，可以从左侧的工具栏中选择想要的操作模式，主要为绘制和擦除。

接下来，用户需选择相应的语义特征，例如“椅子”、“树木”、“天空”、“桌子”。有意思的是，这些语义特征会因上传图像的不同而变化。

同时，绘制和擦除的画笔大小和特征强度（低、中、高）也是可以选择的。

此外，在用户界面的右侧有一个历史面板，该面板会按时间顺序显示用户的修改历史和范围。当用户将鼠标悬停在以前的编辑上时，相应的编辑痕迹也会在图像中突出显示。当然，编辑过的内容也可以从列表中进行删除。

那么它具体是如何做到的？

从技术上来说，GANPaint Studio的核心是一个名叫GAN的神经网络，GAN由一个生成样本的生成器、一个试图区分生成样本与现实世界样本的鉴别器两部分组成。

研究人员在开发模型时，需要识别GAN内部和特定对象类型（如门口）相关的单元。然后再分别对这些单元进行测试，看消除它们后是否会导致照片中的某些物体消失或出现。

同时，他们还需要移除造成图片显像错误的单元，以提高照片的整体质量。

当系统学习了一些关于对象之间关系的基本规则后，就不会把物体放在不符合逻辑的地方，例如在天空中生成一扇窗户，而是根据上下文创建不同的视觉效果。

检测艺术肖像的几何与纹理风格

自然图像中的面部地标检测（Facial Landmark detection）是一个十分活跃的研究领域。

这些年来，随着基于神经网络技术和大规模数据集的兴起，计算机在自然图像领域的研究取得了一定的进展。

然而，计算机在艺术肖像领域仍是一个具有挑战性的研究，也是一个尚未探索的问题。

与自然面部图像相比，艺术肖像在几何和纹理方面都更加多样化，分析起来也更复杂。

今年SIGGRAPH收录的学术论文中，有一篇名为《艺术之脸：肖像中的标记检测和几何风格（The Face of Art: Landmark Detection and Geometric Style in Portraits – Supplemental material ）》的论文。

该研究论文显示，以色列的特拉维夫大学，以及以色列赫兹利亚跨学科研究中心（The Interdisciplinary Center Herzliya）的研究人员们共同开发了一种用于自然面部图像的艺术增强方法，该方法能够训练深度神经网络，以用于艺术肖像中的面部地标检测。

具体来说，研究人员们通过利用传统的面部地标数据集，研究人员将这些数据从自然图像转换成与艺术肖像类似的图像。

由于各类艺术肖像中面部地标的位置和形状不同，因此他们使用基于面部特征（眼角或嘴角等）的地标矫正步骤，以减少不同面部特征之间的依赖性。

为了评估这个面部地标检测框架，研究人员还创建了一个艺术肖像数据集，其中包含160件不同艺术流派、艺术家和风格的艺术作品，其作品的几何形状和纹理都有很大差异。

测试表明，研究人员通过该算法可以检测艺术肖像中的面部特征，并分析它们的几何风格。

这一成果表明，研究人员们不仅能对艺术风格作品的几何与纹理样式进行编码，还为肖像提供了几何感知的风格转移方法。

广角镜头畸变的“救星”

目前在智能手机市场中，许多手机都拥有广角相机功能，不仅给照片带来了更开阔的视野，也能让用户在拍集体照的场合时无需担心画面容纳不下所有人。

但随之而来的问题是，广角镜头更宽的视野（FOV）往往也会产生畸变，特别是在画面边缘的人脸、身体和背景等都被拉长、压扁和扭曲，这也给许多用户带来了不少的困扰。

因此，谷歌的研究人员们研发出了一种新的人脸识别算法，能够矫正因为广角拍摄而畸变失真的照片。

该研究成果被收录在SIGGRAPH 2019的学术论文中，名为《手机中的无变形广角肖像（Distortion-Free Wide-Angle Portraits on Camera Phones）》。

谷歌研究人员在论文中表示，在一张输入的肖像中，该技术利用人物分割算法和人脸检测器，将照片中的人物部分和背景部分进行标记和区分，并创建一个内容感知的变形网格。

值得注意的是，该网格能与面部区域的立体投影相匹配，并无缝地转换为照片背景的透视投影。

最后，利用该变形的网格对输入的照片进行修正，照片中的人脸和背景都能相应地得到校正。

目前，该算法主要针对70°至120°的广角范围，并且它是全自动的，校正速度也很快。

但是在现阶段，该算法在修正人体时主要修正脸部，因此有时候因广角畸变而扭曲的身体部分暂时无法很好地修复。

针对这一问题，研究人员也表示，将在未来开发更多新的修正算法，能更全方位地修正因广角拍摄而畸变的照片。

3D动画与传统动画的风格转换

除了在图像科学领域，今年的SIGGRAPH在视频技术领域也为大家展示了不错的成果。

一篇名为《通过范例对视频进行风格化（Stylizing Video by Example）》的论文表明，捷克布拉格技术大学电气工程系、Adobe研究所的研究人员们共同开发了一种新的视频风格化方法。

这一方法的重点是，它对视频进行风格化的同时，保持风格的视觉质量、用户可控性和对任意视频的适用性。

研究人员们表示，在过去的几十年中，计算机图形学的进步引发了一场动画艺术的革命，产生了一个全新的3D动画分支，包括逼真的光照效果和物理精确的模拟。

此外，与照明、材质和性能捕捉相比，动画视频的制作管道比传统动画更像是真人制作。

但这其中有一个问题，由于动画制作者出于生产和技术方面的考虑，导致传统动画和3D动画之间存在着巨大的风格差距。

其中3D动画制作的风格有着独特的外观，但遗憾的是，目前通过利用3D动画还无法全面地再现传统动画的风格外观，也没有自动化的方法可以使用实时性能捕捉来生成传统动画外观。

因此，研究人员们开发了一种时间连贯的视频艺术风格化新方法。

该方法基于一种叫图像类比框架（image analogies framework）的技术，它能够未视频处理提供精确的控制，以及处理视频任意风格的能力。

在研发过程中，研究人员们主要考虑两点设计需求。

一方面，允许算法在任何期望的传统媒体中，以关键帧的形式直接自由地进行艺术控制；另一方面，能够将任意输入系统的视频进行风格化。

随后，研究人员通过该方法制作了一个实用流水线，能从系统捕捉的实景表演中创建传统风格的动画。

它还提供了一个更简单的艺术视频创作的流程，让以往单调乏味的逐帧绘画过程变得更简单有趣，同时也保留了传统艺术视频独特而丰富的视觉品质。

研究人员表示，他们希望通过这个时间连贯的视频艺术风格化新方法，能有助于弥合视频的实时动作、3D动画和传统手绘动画之间的差距。

学习人类字迹后生成个性化字体库

除了图像和视频方面，今年的SIGGRAPH在设计和布局领域也录入了一项有意思的研究。

它是一个叫做EasyFont的学习系统，简单来说，它能够通过学习某个人的字迹，然后将字体库中的所有字体都生成一模一样的字迹。

该研究论文名为《EasyFont：基于样式学习的系统，可轻松构建大型手写字体（EasyFont: A Style Learning-Based System to Easily Build Your Large-Scale Handwriting Fonts）》，研究团队为北京大学计算机科学与技术学院。

在过去的二十年中，字体产品的数量迅速增加，但也有越来越多的人希望能使用独特且个性化的手写风格来呈现文本。

然而，建立一个包含大量不同字符的手写字体库并不是件容易的事。

就拿目前业界领先的中国字体制作公司FounderType来说，一个由三到五名经验丰富的字体设计师组成的团队，需要花超过12个月的时间才能生成一个GB18030-2000的中文字库。

专业设计师都需耗费如此多的时间和精力，更别说普通人了。

为了解决这个问题，北京大学的研究人员们设计了一个十分方便的系统，能够从普通人编写的少量（少至1％）的样本中学习手写风格，并生成一个具有大量字符（例如中文）的个人手写字体库。

首先，研究人员设计了一种有效的笔画提取算法，该算法能从训练好的字体骨架流形（font skeleton manifold）中，来构搜集和构建最适合的参考数据，然后通过非刚性点阵配准算法（Non-rigid point set registration method），建立目标字符和参考字符之间的对应关系。

其次，他们开发了一套新颖的系统，用于学习和恢复用户的整体手写风格，以及详细的手写行为。

具体操作上，用户输入一张带有书写字迹的纸张照片，系统通过分割校正后的文本图片，获取单个字符图像。

接下来，系统会为每个字符图像提取每个笔画的书写轨迹，并选择正确的提取结果，然后采用人工神经网络来学习用户的整体手写风格。

系统在分析和描述所有连续笔画的连通性，以及每种笔画轮廓的细节后，会将学习到的样式添加到参考数据上，为每个字符创建轨迹并恢复手写细节。

最后，系统将手写样本的图像和其他字符的合成结果矢量化，以生成TrueType字体库，并输出成用户的个人手写字体库。

值得一提的是，研究人员们让包括图灵测试在内的97名志愿者，区分系统的生成字体和真人手写字体。测试结果表明，志愿者无法区分哪些是系统生成的字迹，哪些是人写的原始笔迹。

结语：为学界和业界带来新的研究方向

一年一度的SIGGRAPH大会不仅是图形学界最具权威和影响力的国际会议，同时它收录涉及人工智能、机器学习、图像视频等各个领域的研究成果，也为学术界和业界各领域的研究人员们带来新的研究方向和创新启发。

通过简单几笔就能生成逼真照片的GANPaint Studio、能拯救因广角镜头而导致画面畸变的算法、能学习人类字迹后生成个性化字体库的EasyFont……这些技术虽然看起来离人们的生活还很远，但是其中的一些成果已经实现了商业化落地，并逐渐给人们的生活带来改变。

在未来，又会有哪些突破性的技术为学界和业界带来新的方向和突破口？哪些技术又将会以何种方式更深刻地影响人们的生活？这都是值得我们所期待的。

论文链接：

http://ganpaint.io/Bau_et_al_Semantic_Photo_Manipulation_preprint.pdf

http://www.faculty.idc.ac.il/arik/site/foa/The_Face_of_Art_supplemental.pdf

http://people.csail.mit.edu/yichangshih/wide_angle_portrait/shih_sig19.pdf

https://dcgi.fel.cvut.cz/home/sykorad/Jamriska19-SIG.pdf

http://www.icst.pku.edu.cn/zlian/docs/TOG18-Lian.pdf

阅读剩余内容

SIGGRAPH 图形五大视觉神笔马良

图形顶会SIGGRAPH上的五大视觉黑科技：AI届的神笔马良来了

你和神笔马良的距离就差水光文化墙了

当代神笔马良：一笔画出一部手机的PCB技术

神笔马良作文神笔马良作文400字

读《神笔马良》有感作文读《神笔马良》有感作文600字

读神笔马良有感_神笔马良读后感800字