标识设计是一个费时费力的过程。而最近生成式模型领域进展飞速,这就让人好奇ai可不可以用来设计标识?生成对抗网络(gan)据说能够学习模拟任何数据分布,已经取得了广泛的应用,但目前很少有人研究如何用gan来设计标识。年底召开的icmla 2018上有一篇论文,马斯特里赫特大学的ajkel mino和gerasimos spanakis,提出了根据颜色自动生成标识的logan模型,可以说是这一方向上的初步探索。
logan架构
gan
在介绍logan架构之前,先温习下gan网络。
gan由生成器和判别器两个神经网络组成,以对抗的形式同时训练。
gan是出名的难训练,饱受训练不稳定、无法收敛、模式崩塌之苦。近年来有不少研究都试图改进gan的训练过程,例如在gan中引入深度卷积层(dcgan),修改目标函数(lsgan和wgan)。
条件gan
如前所述,logan是根据颜色自动生成标识,换句话说,是以颜色为条件。能够基于标签数据生成特定分类的图像的gan架构,主要有两种:
cgan,生成器和判别器都额外接受一个类别标签数据。
ac-gan,判别器不仅需要识别图像的真伪,还需要判断图像的类别(不论真伪)。
gan、cgan、ac-gan架构对比
logan即基于ac-gan改造得到。
ac-wgan-gp
在ac-gan架构中(参见上图),判别器同时优化真伪误差和类别误差:
不过,考虑到wgan-gp更稳定,所以logan用wgan-gp的损失函数替换了ac-gan的损失函数:
但是这就造成了一个问题,类别损失没有了。所以,logan在ac-gan的基础上额外增加了一个分类器q,辅助判别器进行分类。也就是说,和ac-gan不同,logan由三个网络组成:生成器g、判别器d、分类器q。
经过改造的ac-gan
分类器q的损失函数定义如下:
为了避免训练不稳和模式崩塌,logan的训练借鉴了一些最新研究成果,采取了以下措施:
判别器每迭代5次,分别迭代一次生成器和分类器。
z取样自高斯分布。
应用了批归一化。
试验
数据集
logan基于lld-icons数据集训练,该数据集包含486377张32×32像素的图标。
使用了k均值聚类(k = 3)从图像中提取主要色彩,然后分为黑、蓝、棕等12类:
训练
下为判别器、生成器、分类器的训练损失图像。
从图中我们可以看到,判别器和生成器的损失图像有下降趋势,没有收敛。不过这并不意味着训练有问题,因为wgan和wgan-gp都不保证收敛。另一方面,分类器收敛至接近1的损失值。实际上,生成图像的分类损失收敛至零,这意味着生成图像都能被正确分类。
结果
400个epoch的训练后,每个分类生成了64个标识:
由于是在32×32像素的图标上训练的,所以生成的标识有点模糊。生成的标识大多为圆形或方形,但也有不规则形状,如心形和x形。
各个分类主要颜色的准确率、召回、f1数据如下表所示:
有些分类的评分偏低,这是因为很多图标周围使用白色作为背景,同理,灰色作为中性色,也有很多图标使用。
各分类主要颜色分布
改进方向
尽管取得了很有潜力的结果,logan目前还是有不少限制:
对抗生成网络的常见问题,生成的标识很模糊。使用分辨率更高的训练图像应该能缓解这一问题。
仅仅使用颜色作为关键词局限性太大。未来考虑加入形状、公司的重心等其他关键词。
联想thinkplus是什么牌子?智能高效的办公选择
低温放大器的发展趋势
自动驾驶有什么新的发展
拥有PC功能和PLC可靠性的新兴PAC
芯英科技研发“伏羲”芯片,能耗仅为进口芯片的10%
根据颜色自动生成标识的LoGAN模型
MIPI接口的用途广泛,它的优点都有哪些
电阻应变计传感器是一种电阻传感器
iphone15上市的时间 iphone15参数配置
3D数模的CMM曲面检测技术
智慧农业物联网对农业发展的贡献都有哪些
机器视觉应用的优势体现
openharmony与鸿蒙区别
孩子学习不用功?可能是双眼的原因,裸眼3D技术可破解
3D打印会改变电池制造吗
哪个牌子的蓝牙耳机好,降噪效果好的蓝牙耳机推荐
企业展厅智能滑轨屏的解决方案说明
都2022年了,什么时候才能实现“模组自由”?
印刷电路(PCB)板抄板信号隔离技术应用广泛
AMD50周年纪念版锐龙7 2700评测 性价比无敌