技术

 2020-05-26  843

计算机视觉下的任务纷繁庞大,除了熟悉的目标检测、图像识别、图像分类等常见的视觉应用,还有着图像翻译、图像分割和图像超分辨率等十分具有研究和应用价值的方向。本文就近年(2019和2020年)图像翻译下的先进模型进行典型性介绍,一起梳理下图像翻译的发展和未来研究的趋势。

Read More
技术

 2020-04-19  471

同一个场景在不同时间段存在着一定的变化,这主要取决于光照对图像的成像的影响,如何通过一个时间段的场景图像在无域标签的情况下合成出不同时间段下的高分辨率场景图像是本文要介绍的CVPR 2020 oral中High-Resolution Daytime Translation Without Domain Labels(HiDT)所做的工作。

Read More
技术

 2020-03-07  798

GAN自提出以来就以生成对抗为目标进行模型优化,这种对抗真的区分了真实数据和生成数据了吗?ICLR2020中的一篇Real or Not Real, that is the Question(RealnessGAN)提出了对传统GAN判别数据真假的质疑,文章抛出了在传统GAN中对于判别器的鉴别输出为一常数score是不合理的观点,并由此提出合理的解决方案,本文将对RealnessGAN进行解析,探究GAN是否真的区分了真假。

Read More
技术

 2019-12-17  420

近期NVIDIA发布的StyleGAN2对于GAN用于图像生成又推进了一把,同时也是赚足了眼球,然而同期下另一篇图像翻译任务下的改进版模型却显得有点默默无闻了,这就是今天我们要介绍的StarGAN v2。模型整体在StarGAN[1]的基础上解决了图像翻译任务中源域的图像转换为目标域的多种图像,并支持多个目标域的问题,实现了较好的源域图像到目标域图像的转换,值得一说的是文章还公布了一个动物面部图像数据集,即将发布于作者的Github下。

Read More
技术

 2019-10-31  532

谈到数据的生成,很多人都会想到利用生成对抗网络(GAN)去实现,这对于图像和视频这种较易于编码表示的数据是合适的。然而在实现音频的生成时,却是困难重重,首先音频具有较高的时间分辨率(通常至少为每秒16,000个样本),并且在不同时间尺度上存在具有短期和长期依赖性的结构。就目前基于GAN做音频生成的文章中,基本上都是生成出音频对应的中间形态-声谱图。本篇将对音频的后端生成进行分析,介绍MelGAN是如何通过梅尔谱图快速转换得到最终声音的。

Read More

subscribe via RSS

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏一下,你说多少就多少

打开微信扫一扫,即可进行扫码打赏哦