技术

 2019-10-31  532

谈到数据的生成,很多人都会想到利用生成对抗网络(GAN)去实现,这对于图像和视频这种较易于编码表示的数据是合适的。然而在实现音频的生成时,却是困难重重,首先音频具有较高的时间分辨率(通常至少为每秒16,000个样本),并且在不同时间尺度上存在具有短期和长期依赖性的结构。就目前基于GAN做音频生成的文章中,基本上都是生成出音频对应的中间形态-声谱图。本篇将对音频的后端生成进行分析,介绍MelGAN是如何通过梅尔谱图快速转换得到最终声音的。

Read More
技术

 2019-10-25  283

图像翻译这个领域的应用是相当的多,图像风格迁移、图像修复、图像属性变换、图像分割、图像模态的转换等都可以统称为图像翻译的任务。本文将介绍一个图像翻译中比较新颖和有趣的应用,图像的重定向,也就是对图像进行自然的放大和缩小而不影响图像的整体,这是区别于简单的图像拉伸和压缩的过程,而是通过图像到图像转换的过程来实现的。本文将介绍的InGAN通过捕获图像的内部色块分布实现了图像的的扩充和拉伸,同时文章也是ICCV 2019的oral。

Read More
技术

 2019-09-27  193

固定的应用场景对于泛化的图像翻译模型来说存在着一定的局限性,往往需要根据实际的需求对网络和细节进行设计以达到特定的效果。图像转换模型中CycleGANPix2PixStarGANFUNIT都是泛化较好的模型,然而对于特定需求还是需要更为细致的设计。本篇的目的是为了解读在人脸到肖像画的图像翻译任务下,如何做到这种固定需求的高质量图像转换。本篇的主角是APDrawingGAN,同时也是CVPR2019 oral,实现了高质量的人脸到肖像图的转换。

Read More
技术

 2019-08-07  608

生成对抗网络(GAN)在这几年的发展下已经渐渐沉淀下来,在网络的架构、训练的稳定性控制、模型参数设计上都有了指导性的研究成果。我们可以看出17、18年大部分关于GAN的有影响力的文章多集中在模型自身的理论改进上,如PGGANSNGANSAGANBigGANStyleGAN等,这些模型都还在强调如何通过随机采样生成高质量图像。19年关于GAN的有影响力的文章则更加关注GAN的应用上,如FUNITSPADE等已经将注意力放在了应用层,也就是如何利用GAN做好图像翻译等实际应用任务。学术上的一致性也暗示了GAN研究的成熟,本文主要介绍一种利用GAN的新型无监督图像转换论文U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation

Read More
技术

 2019-07-29  1847

很想一心去走计算机视觉的科研路,但是无奈形式下不得不面临找工作的压力,博主是个很普通的学校,就业压力还是有的,所以博客会新增一些笔试的复盘博客,主要留着给自己备份,有兴趣的欢迎下方留言讨论。本篇复盘的是拼多多20届学霸批算法笔试题,思路也是结合自己当时写的加上已公开的思路,试题是Python来写的,如果有错误和需要改进的欢迎指正。

Read More

subscribe via RSS

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏一下,你说多少就多少

打开微信扫一扫,即可进行扫码打赏哦