技术

 2020-03-07  798

GAN自提出以来就以生成对抗为目标进行模型优化,这种对抗真的区分了真实数据和生成数据了吗?ICLR2020中的一篇Real or Not Real, that is the Question(RealnessGAN)提出了对传统GAN判别数据真假的质疑,文章抛出了在传统GAN中对于判别器的鉴别输出为一常数score是不合理的观点,并由此提出合理的解决方案,本文将对RealnessGAN进行解析,探究GAN是否真的区分了真假。

Read More
技术

 2019-12-17  420

近期NVIDIA发布的StyleGAN2对于GAN用于图像生成又推进了一把,同时也是赚足了眼球,然而同期下另一篇图像翻译任务下的改进版模型却显得有点默默无闻了,这就是今天我们要介绍的StarGAN v2。模型整体在StarGAN[1]的基础上解决了图像翻译任务中源域的图像转换为目标域的多种图像,并支持多个目标域的问题,实现了较好的源域图像到目标域图像的转换,值得一说的是文章还公布了一个动物面部图像数据集,即将发布于作者的Github下。

Read More
技术

 2019-10-31  532

谈到数据的生成,很多人都会想到利用生成对抗网络(GAN)去实现,这对于图像和视频这种较易于编码表示的数据是合适的。然而在实现音频的生成时,却是困难重重,首先音频具有较高的时间分辨率(通常至少为每秒16,000个样本),并且在不同时间尺度上存在具有短期和长期依赖性的结构。就目前基于GAN做音频生成的文章中,基本上都是生成出音频对应的中间形态-声谱图。本篇将对音频的后端生成进行分析,介绍MelGAN是如何通过梅尔谱图快速转换得到最终声音的。

Read More
技术

 2019-10-25  283

图像翻译这个领域的应用是相当的多,图像风格迁移、图像修复、图像属性变换、图像分割、图像模态的转换等都可以统称为图像翻译的任务。本文将介绍一个图像翻译中比较新颖和有趣的应用,图像的重定向,也就是对图像进行自然的放大和缩小而不影响图像的整体,这是区别于简单的图像拉伸和压缩的过程,而是通过图像到图像转换的过程来实现的。本文将介绍的InGAN通过捕获图像的内部色块分布实现了图像的的扩充和拉伸,同时文章也是ICCV 2019的oral。

Read More
技术

 2019-09-27  193

固定的应用场景对于泛化的图像翻译模型来说存在着一定的局限性,往往需要根据实际的需求对网络和细节进行设计以达到特定的效果。图像转换模型中CycleGANPix2PixStarGANFUNIT都是泛化较好的模型,然而对于特定需求还是需要更为细致的设计。本篇的目的是为了解读在人脸到肖像画的图像翻译任务下,如何做到这种固定需求的高质量图像转换。本篇的主角是APDrawingGAN,同时也是CVPR2019 oral,实现了高质量的人脸到肖像图的转换。

Read More

subscribe via RSS

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏一下,你说多少就多少

打开微信扫一扫,即可进行扫码打赏哦