DeepMind把GAN又玩出了新花样!推出的是双视频判别器GAN

deepmind把gan又玩出了新花样!这次推出的是双视频判别器gan,通过对判别器更高效的分解,生成的视频样本在长度和分辨率上都远高于此前最好水平,在多个合成和预测视频数据集上刷新了sota。
也许你听说过faceapp,这是一款利用ai来改变自拍的移动应用程序,你可能也听说过“这些人物都不存在”网站,它可以显示计算机生成的虚构人物照片。但是生成完完全全的新视频的算法你听说过吗?最近,deepmind的一篇最新论文详细介绍了ai剪辑生成领域的最新进展。
论文地址:
https://arxiv.org/pdf/1907.06571.pdf
研究人员表示,由于“高效计算”组件和技术的使用,再加上新的定制数据集,他们训练出的最佳性能模型:双视频鉴别器gan(dvd-gan)可以生成“高保真度”的连贯256 x 256像素视频,帧数高达48帧。
dvd-gan这个简称由ian goodfellow“钦定”
“生成自然视频对于生成建模任务来说是一个明显更困难的挑战,受到数据复杂性和计算要求增加的困扰,”共同作者写道。“出于这个原因,许多关于视频生成的先前研究都围绕着相对简单的数据集或可获得强时间条件信息的任务。我们的研究则关注视频合成和视频预测的任务......并将生成图像模型的成果扩展到视频领域。”
研究人员围绕尖端ai架构构建系统,并专门针对视频进行了特定的调整,使其能够在kinetics-600上进行训练,这是一个比常用语料库大一个数量级的自然视频数据集。具体来说,研究人员利用扩大的生成对抗网络(gan),它已应用于多种转换任务,比如将字幕转换为逐个场景的情节板,生成人造星系的图像等。本文中采用的是biggan,以大批量和数百万个参数而著称。
dvd-gan:双判别器,非约束数据集无需担心过拟合
一组4秒合成视频剪辑,由kinetics-600在128×128帧上训练
dvd-gan包含两个判别器:一个空间判别器,通过随机采样全分辨率帧并单独处理,来评判单帧的内容和结构,还有一个是时间判别器,负责提供学习信号来生成运动。此外还有一个单独的模块:变换器,让学习到的信息在整个ai模型中传播。
至于训练数据集(kinetics-600),这是根据最初为人类行为识别策划的500,000个10秒高分辨率youtube剪辑编制的,研究人员称该数据集具有“多样化”和“非受限”的特点,他们声称这些特征消除了过拟合的风险。(在机器学习中,过拟合是指与特定数据集过于紧密对应的模型,因此无法可靠地预测未来的观测结果。)
该团队在论文中表示,在经过google加速的第三代tpu训练12到96小时后,dvd-gan成功创建了包括目标结构、移动,甚至是复杂纹理的视频。模型还尽力在更高的分辨率下创建连贯的物体,物体的运动组成像素更多。但研究人员指出,在ucf-101(13,320个人类行为视频的较小数据集)上评估时,dvd-gan生成的样本的最好成绩分数为32.97。
“我们希望进一步强调在大型复杂视频数据集(如kinetics-600)上训练生成模型的好处,”论文中写道。“我们想通过dvd-gan在此数据集上建立的强大基线标准,作为生成建模社区的参考标杆。虽然在非约束的环境下,要想始终如一地生成逼真的视频还有很多工作要做,但我们相信,dvd-gan是朝这个方向迈出的坚实一步。”

从小说来看区块链会是怎样的
什么是小波分析?
DAC0832输出转电压的运放电路图
E拆解:华为AI音响
中国半导体技术大会CSTIC 2018整体介绍
DeepMind把GAN又玩出了新花样!推出的是双视频判别器GAN
拼多多将苹果iPhone 12全系纳入百亿补贴
通信高压直流电源的特点_通信高压直流电源的优点
基于运放实现交流信号的平移
3.5G/HSDPA技术架构与手机开发要点
华为麒麟710A转向中芯国际14nm生产,从0到1的突破
测温、健康码通行防疫,扫码测温机打造数字防疫
工业企业能效管理平台为能耗超限电价加价机制做出合理规避
iPhone8什么时候上市:iPhone8史无前例的升级,设计、配置、屏幕、外形、售价升升升!
SC2121兼容AD2S1205在永磁同步电机驱动系统中的应用
深入解析NXP的步步为营环抱高通,原起飞利浦
解读中国VR硬件现状 VR芯片谁能强势突围?
限流电阻烧了怎么办
珠海航展明日开幕:展会活动八大亮点抢先知道
在Linux中如何对CPU进行压力测试呢?