杀马特教授和他的新技术究竟如何?paGAN:逼真动画人物生成对抗网络

还记得“杀马特教授”黎颢吗?他将率领团队在下周召开的siggraph中展示一项黑科技“pagan”:每秒1000帧扫描,用单幅照片实时生成超逼真动画人物头像。连gan发明人ian goodfellow也忍俊不禁,杀马特教授和他的新技术究竟如何?
还记得此前新智元报道过的“杀马特教授”黎颢(hao li)吗?
看到这张照片,应该能够唤起你的记忆了吧?
是的,黎颢目前正身陷法律诉讼,他被自己成立的计算机视觉创业公司pinscreen的前cto起诉,后者指控黎颢学术造假,向计算机图形顶会siggraph 2017提交人为篡改的图像和结果。
黎颢否认指控,现在案件正在进行中。
不过,我们今天要讲的主题,是关于下周即将召开的最新一届siggraph 2018,黎颢的团队提交了一项命名独特且效果惊人的工作,连gan的发明人ian goodfellow今天都发推表示,“最受期待的一个gan命名已经被人用了:pagan(有“异教徒”之意)”。
实际上,早在2014年siggraph asia,新智元创始人兼ceo杨静就曾采访黎颢。黎颢从2013年起在美国南加大计算机系担任助理教授,从事计算机图形学和计算机视觉相关领域的研究。2010年在苏黎世联邦理工学院获取博士学位,2011年在哥伦比亚大学和普林斯顿大学从事博士后研究,随后在工业光魔(industrial light & magic)担任研发主管,并于2014年在维塔数码(weta digital)任访问教授。
黎颢曾在乔治卢卡斯工作室工作,为电影《星球大战》提供特效技术。后来他与人联合创办了计算机视觉创业公司pinscreen,并担任ceo。
在下周siggraph 2018的real time live活动中,黎颢率领的pinscreen团队将展示“革命性”的新机器学习技术,“打破了传统的模型、纹理、光线和渲染管道”,日前科技作者mike seymour一篇发表在 fxguide.com 的文章如此介绍。
“重要的是,pinscreen的研究工作既适合高端(基于pc)又适合移动端(基于手机/移动电话)……通过在这两个层面开展工作,团队提供即时应用程序,同时还致力于重要的长期基础研究”,mike seymour如此写道,并且亲自进行了测试。
接下来,我们就来看看杀马特教授和他的团队即将提交的最新成果吧。
每秒1000帧:根据普通照片实时生成高清逼真动画人脸
下面就是 fxguide 的mike seymour,左边是苹果iphone手机拍摄的短视频,右边则是实时渲染的cgi,在原视频人脸上盖了一层数码生成的3d数码人脸(hockey mask)。这个过程中只涉及边缘修饰的少量微调,其他全部自动生成。
pinscreen的团队正在使用单幅jpeg图像构建他们的3d脸部模型,而且采用端到端的方法。
首先,模型识别照片中的人脸,然后生成一个合理的3d网格。
不仅如此,模型能以1000 fps的速度对人脸进行跟踪。手机摄像头的速度一般只有30或60 fp,但黎颢解释说:“这让我们有足够的时间在同一帧中追踪多个面孔。”
这个追踪器名为vgpt,代表“veli goodo pace tracka”,由pinscreen的shunsuke saito领导开发。在搭载英伟达1080p gpu的pc上,vgpt以1000 fps的速度运行。在iphone x上,它的运行速度接近60~90 fps。
“我们的解决方案的另一个巨大优势是它占用的内存非常少,没有i/o的核心只有5m,而且完全基于深度学习。”黎颢表示。
该解决方案基于直接推理,不像传统的面部跟踪器那样,后者是直接跟踪特征或标记。较旧的跟踪器会使用基于aam模型的面部标记检测器,速度慢很多。而这个新的解决方案,根据黎颢的说法,提供了“相对于相机的3d精确头部模型,以及微表情测量工具和所有重要的东西”。
vgpt使用一组ml工具进行非常快速的无标记跟踪。不仅跟踪效果好,鲁棒性也高。如果一个人在摄像头前移动,部分遮挡了相机,程序将很快重新获得面部信息并继续工作。
vgpt将是pinscreen下周在siggraph实时现场演示中最强大的新工具。
pinscreen拍摄了《洛杉矶时报》记者david pierson的一张照片作为输入(左),并制作了他的3d头像(右)。 这个生成的3d人脸通过黎颢的动作(中)生成表情。这个视频是6个月前制作的,pinscreen团队称其内部早就超越了上述结果。
pagan:逼真动画人物生成对抗网络
那么,再来看关键的“pagan”,这个缩写代表“photoreal avatar generative adversarial network”,逼真动画人物生成对抗网络,这就是pinscreen系统的“渲染器”。
到目前为止,对动画头像或数字人物进行传统建模、纹理、灯光和渲染的方式都需要构建非常高质量的数据集。这通常需要很多高质量的扫描图像。多个图像开始,以构建摄影测量样式解决方案,具有非常多高质量、符合摄影测量法的人脸扫描图像。
为了解决这个问题,黎颢和pinscreen团队跳过了传统的管道方法,他们认为“用ml采用”不等于“用cgi模拟”。
pinscreen团队的目标是将采样的面部重新点亮,生成动画,旋转,然后放置在模拟的3d环境中,就像3d cgi头像一样。但是,整个过程没有使用正常的建模/纹理/照明和渲染管道。
结果看起来很真实,就像照片投影在与之匹配的几何体之上,但它仅在静态时才起作用。
pinscreen想要看看他们是否可以使用最先进的深度生成模型来实现一个通用的解决方案。“这是一种非常特殊的深度学习网络,它包含了生成对抗网络。它们具有生成逼真的2d图像的能力。我们知道gan可以生成逼真的2d图像,许多其他研究人员已经证明了这一点,”黎颢解释道。
“在ian goodfellow的开创性工作和nvidia的大量精彩工作的基础上,已经证明可以训练神经网络来合成高质量的面部图像。”黎颢和他的团队想知道他们是否可以将这项新技术转变为一种面部渲染引擎(facial render engine),从而跳过建模,纹理和光照的pineline。它不只是从正确的角度来“渲染”脸部,而是使用gan ml。
pagan是一个ml gan网络,它基于简单模型的输入(具有少量纹理)来呈现照片级真实的面部,这个简单模型来自他们的vgpt。
pagan擅长处理眼睛和嘴巴。
当用于面部处理时,gan的问题在于输出是2d的,并且“vanilla gan”非常难以控制。“用gan会得到任意的斑点,这些斑点很难控制。我们用pagan能够确保输出看起来是照片级真实的,特别是口腔和眼睛区域,”黎颢说。早期的研究也做了类似的工作,但没有包括眼睛或嘴巴。
“嘴巴,以及舌头在嘴巴里的移动方式,这是pagan做得非常好。”
彻底解析神奇技术:重新定向
由于人脸可以由单个的jpeg制成,并且所有表情都来自新的表情源,所以这种技术非常适合以一种可信的、合理的方式将别人的脸制成动画。
在查看结果时,要注意被操作的脸(右边)是由一张jpeg图像(顶部)仅由一个静止的jpeg图像(顶部)制成,而没有其他facs输入或特殊扫描。所有的表情都是从expression source转移到目标人物。
混合方案和光照问题
由于黎颢的背景和在ilm、weta digital等公司的经历,他知道自己的面部工具需要在有v-ray、manuka或renderman的pipeline上工作。“目前我们的解决方案是一种混合方案,效果非常好。我们将在siggraph的real time live上演示的解决方案就是这样的。”
黎颢补充说:“照片真实级别的人脸是很好的技术演示,但是在pinscreen,我们想让人们使用它……如果你有3d的脸或头像,你需要有一个环境,否则就没有意义了。”
出于这个原因,pagan面不仅能够从任何角度“渲染”,而且还能够任何光照场景中“渲染”。 “在环境中,意味着可以从任意方向和该环境的任何照明条件下渲染”。
pinscreen目前通过解决面部的照片级反照率来解决这个问题(不是100%的反照率,但很接近)。“使用这种反照率纹理,再加上其他使用传统计算机图形的pipeline,可以获得令人信服的结果。”黎颢说。
在用户测试中部署时,cgi人脸的得分接近完美。在相似的背景下以相同方式和真实面部一起呈现时,cgi人脸几乎能够完美地欺骗用户。
手机级别
下图是以单张jpeg作为输入,到最终在iphone上呈现角色输出的过程。下面是mike seymour的源图像。 虽然pinscreen团队可以使用深度相机,但这款iphone实时制作出来的mike最终效果是使用单个jpeg图像而不是深度相机传感器数据制作的。 图像是在iphone x上拍摄的,但使用的是非深度感应相机。
“在pinscreen公司,我们有两个团队,一个团队专注于制作人们喜欢玩的东西,同时我们有一个非常强大的研究小组。这个小组关注的是基本问题。”
pinscreen想让3d avatar大众化,但是人们为什么需要它呢?
黎颢说:“首先,大多数游戏都是3d游戏,而且大部分游戏中都涉及到人类的形象或造型,但我认为它可以走得更远。”
他看到的应用是3d通信(skype的3d版本),“在某种程度上,我觉得你就在我们办公室。这是人们真正合作,共同完全解决问题,交流思想和情感的唯一途径。这是建立信任的关键。”
他说,他期待有一天我们真的觉得在使用3d头像的时候会有人在房间里,但“要做到这一点,你不能依靠游戏或电影研究工作室来捕捉你的面部数据,它必须是足够聪明的,能够基于有限的知识来构建所有这些复杂性。”这就是为什么pinscreen对于先进的ml和专业的gan如此看重的原因。
输入charlie的单张图片,并在iphone上生成3d人脸的过程
pinscreen的策略是先构建“游戏”级的移动平台,“但这是我们能够用来部署我们正在开发的所有新研究技术的平台”。
团队训练一个gan,可以在不同的视点中产生表情,给出一个中性的jpeg脸部图像。 在右侧,来自训练网络的提取纹理用于在手机上实时驱动动态avatar
我们使用大量的人脸图像数据集来训练网络,该数据集可以捕获各种目标和表情。由于移动端的硬件限制,pagan无法以令人满意的帧速率在当前的iphone硬件上运行。网络被训练好之后,可用于生成一小组固定关键表情的纹理,然后可以将这一固定或稀疏的集合扩展为基于面部动作编码系统(facs)的一组混合形状uv纹理图。计算完成后,就可以用这些纹理来创建具有多种表情的头像,所有这些都由跟踪器在手机上以30帧的速率实时驱动的。它可以在线实时合成每帧纹理。这种移动“压缩”是pinscreen解决方案的重要组成部分,也将在siggraph上展示。
pagan的效果非常好,不仅可以用于制作面部表情,还可以用于制作嘴巴和眼睛。该程序为生成头像制作了300张嘴巴的纹理和20个预先计算出的眼睛纹理。然后利用pagan的眼睛纹理来近似模拟所有观察方向。利用移动设备(例如iphonex)上的视线跟踪器,程序可以选择最接近真实的视线,并以此选择合适的眼睛,组合到面部。
头发
最后一部分是头像的头发。上面的示例框架使用pinscreen的数据驱动毛发解决方案。这个方案是黎颢及其团队之前发布的。现在,该团队正在研究一种新型头发模拟器,但由于这种新方法刚刚提交发表,因此不会出现在今年的实时现场演示中。新的系统属于另一种端到端神经学习解决方案,将始终根据训练数据生成合理的头发模型。
2014年siggraph asia访谈:特立独行的杀马特教授
正如前文所说,实际上,在2014年siggraph asia上,新智元创始人兼ceo杨静就对黎颢进行了采访。
视效艺术家通常通过粘在人脸或身体上的3d感应球进行表情捕捉,黎颢的技术突破在于使用了深度传感器(微软的xbox体感游戏使用了同样的技术)简化了这一过程,当装有深度传感器的摄像机对准演员的脸时,黎颢的软件会自动分析其面部表情的变化,并立刻将这些表情套用到动画人物上。
黎教授于2013年发表的siggraph论文所提出的技术,在皮克斯和工业光魔进行过一些实验测试,用于前期的pre-visualization。技术结合利用了深度相机(kinect)和视频摄像头捕捉到的信息,也就是同时使用了深度和颜色信息。
在光影工业,黎颢主要是针对几部《星球大战》(star wars)脸部捕捉技术的研发。主要工作是提供脸部和身体捕捉和重建技术的效率,希望能够在拍摄的同时能尽可能看到最后合成的效果,也就是尽可能做到实时。

虹膜识别技术未来可以在哪些领域有所作为
华为Mate 20 Pro的拍照和视频的综合得分高达109分全球排名第一
小米6什么时候上市:小米6将于4月16日发布,采用满血版骁龙835
高通正式发表5G进展与新一代行动平台
无线电池管理系统(wBMS)的发展趋势与挑战
杀马特教授和他的新技术究竟如何?paGAN:逼真动画人物生成对抗网络
转换率高达34.5%!光伏电池能效记录再次被打破
什么是SWaP?一些直接影响SWaP的重大成就
如何判断扫地机器人好不好用
智能手表屏幕损坏如何解决
以内需市场为突破口
三星计划与现代合作开发电动汽车
AT&T公司正在努力争取在明年年中实现5G的全国覆盖
立功科技荣获广州市“工业软件十强企业”称号
我国动力电池回收业的破解之道
中国芯片终于破冰,芯片技术不再落后于其他国家
工业物联网在能源行业的创新与发展
MT7621和QCA9558的差距 浅谈MT7621应用
虹膜识别:最可靠的生物特征
研华AIW-210和AIW-211 ,工业GNSS解决方案新品分享