技术

 2018-08-14  207

VAE在图像和数据的生成上有着不错的效果,对于单模态数据而言VAE可以不错的重构出图像(虽然有些模糊),但是对于双模态或者是更多模态下的利用VAE 则是困难的,JMVAE可以用于双模态的相互生成但是对于模态间维度差异很大或者是一个模态下缺失数据的情况下效果则是不乐观,这篇论文就是在JMVAE 的基础上为了克服模态下缺失数据造成的生成不理想提出了JMVAE-h和JMVAE-kl两种模型用于改进。

Read More
技术

 2018-08-11  194

人的视觉和听觉是紧密相连的,同时视觉和听觉是人类感知世界的来源。寻求视觉和听觉的转换在很多领域都有很大的意义,论文 Visual to Sound: Generating Natural Sound for Videos in the Wild实现了视觉到语音的 完整转换,最终的效果就是输入一段视频输出一段对应的音频。这和之前的CMAV还有所不同,CMAV虽然也实现了 视觉到听觉的转换,但是最终输出的听觉仅仅是语音的LMS声谱图,今天我们一起看一下这篇论文实现的思路。

Read More
技术

 2018-08-08  112

Improved Training with Curriculum GANs是来自斯坦福斯大学的一篇在WGAN基础上为GAN设计了课程, 通过不断地增强判别器的判别能力(增加课程难度),让生成器学习任务更困难,在越来越难的课程下不断进步自己的生成能力,从而实现高质量图像的生成。 虽然是在WGAN的基础上开展的工作但是Curriculum GAN的思想的普适性是有的,所以具有一定的指导意义。

Read More
技术

 2018-08-02  220

GAN在面部生成上已经取得了很大的成果,StarGAN已经可以实现人脸面部的高清和多属性的生成,但是这类生成是基于数据集的,往往在两幅属性不一的图像上做插值生成是实现不了的。当然将VAE或AE和GAN结合可以实现较好的插值生成,但是如何合理的插值仍然是一个困难的过程。GANimation介绍了一种基于动作单元(Action Units)为条件的新型GAN模型,可以根据ActionUnits(简称AC)的大小调节面部表情生成的幅度,从而实现面部表情不同幅度过程的生成。

Read More
技术

 2018-07-30  125

Mel频率倒谱系数(MFCC)常用于语音识别和说话人身份确认,然而MFCC还原为语音是一个困难的过程。我们前面在一些GAN实现声音到图像转换的论文中经常看到, 图像转换过来的往往是语音信号的MFCC图,由MFCC如何还原回语音对于实现完整的模态转换意义是很大的。 Speech waveform synthesis from MFCC sequences with generative adversarial networks 实现了由MFCC还原出高质量语音信号,实验演示可在这里查看(需要翻墙)。

Read More

subscribe via RSS

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏一下,你说多少就多少

打开微信扫一扫,即可进行扫码打赏哦