| TwistedW's Home

技术

MelGAN快速生成音频

2019-10-31 GAN Audio 524

谈到数据的生成，很多人都会想到利用生成对抗网络（GAN）去实现，这对于图像和视频这种较易于编码表示的数据是合适的。然而在实现音频的生成时，却是困难重重，首先音频具有较高的时间分辨率（通常至少为每秒16,000个样本），并且在不同时间尺度上存在具有短期和长期依赖性的结构。就目前基于GAN做音频生成的文章中，基本上都是生成出音频对应的中间形态-声谱图。本篇将对音频的后端生成进行分析，介绍MelGAN是如何通过梅尔谱图快速转换得到最终声音的。

技术

InGAN捕捉图像内部块

2019-10-25 GAN 277

图像翻译这个领域的应用是相当的多，图像风格迁移、图像修复、图像属性变换、图像分割、图像模态的转换等都可以统称为图像翻译的任务。本文将介绍一个图像翻译中比较新颖和有趣的应用，图像的重定向，也就是对图像进行自然的放大和缩小而不影响图像的整体，这是区别于简单的图像拉伸和压缩的过程，而是通过图像到图像转换的过程来实现的。本文将介绍的InGAN通过捕获图像的内部色块分布实现了图像的的扩充和拉伸，同时文章也是ICCV 2019的oral。

技术

APDrawingGAN由人脸到高质量肖像图转换

2019-09-27 GAN 187

固定的应用场景对于泛化的图像翻译模型来说存在着一定的局限性，往往需要根据实际的需求对网络和细节进行设计以达到特定的效果。图像转换模型中CycleGAN、Pix2Pix、StarGAN、FUNIT都是泛化较好的模型，然而对于特定需求还是需要更为细致的设计。本篇的目的是为了解读在人脸到肖像画的图像翻译任务下，如何做到这种固定需求的高质量图像转换。本篇的主角是APDrawingGAN，同时也是CVPR2019 oral，实现了高质量的人脸到肖像图的转换。

技术

UGATIT-自适应图层实例归一化下图像到图像转换

2019-08-07 GAN 606

生成对抗网络（GAN）在这几年的发展下已经渐渐沉淀下来，在网络的架构、训练的稳定性控制、模型参数设计上都有了指导性的研究成果。我们可以看出17、18年大部分关于GAN的有影响力的文章多集中在模型自身的理论改进上，如PGGAN、SNGAN、SAGAN、BigGAN、StyleGAN等，这些模型都还在强调如何通过随机采样生成高质量图像。19年关于GAN的有影响力的文章则更加关注GAN的应用上，如FUNIT、SPADE等已经将注意力放在了应用层，也就是如何利用GAN做好图像翻译等实际应用任务。学术上的一致性也暗示了GAN研究的成熟，本文主要介绍一种利用GAN的新型无监督图像转换论文U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation。

技术

空间自适应归一化下图像语义合成（论文解读）

2019-07-22 GAN 1119

深度学习在算力的推动下不断的发展，随着卷积层的堆叠，模型的层数是越来越深，理论上神经网络中的参数越多这样对数据的拟合和分布描述就能越细致。然而简单的堆叠卷积层又会引起梯度消失和过拟合的问题，伴随着解决方案下残差网络、归一化和非线性层被提出。本博客将对NVIDA近期的论文Semantic Image Synthesis with Spatially-Adaptive Normalization进行解读，这篇论文提出了适合保留语义信息的Spatially-Adaptive Normalization（空间自适应归一化），同时文章在实现细节上也很有参考意义。

首页 1 2 3 4 5 末页第2页 / 共27页

AnHui HeFei, China

坚持学术与身体一起磨练
当时不杂

打赏

常用链接

博客日历

网站已运行

公元年月农历年年

一
二
三
四
五
六
日

感谢您的支持，我会继续努力的!

扫码打赏一下，你说多少就多少

打开微信扫一扫，即可进行扫码打赏哦