技术

 2018-08-11  198

人的视觉和听觉是紧密相连的,同时视觉和听觉是人类感知世界的来源。寻求视觉和听觉的转换在很多领域都有很大的意义,论文 Visual to Sound: Generating Natural Sound for Videos in the Wild实现了视觉到语音的 完整转换,最终的效果就是输入一段视频输出一段对应的音频。这和之前的CMAV还有所不同,CMAV虽然也实现了 视觉到听觉的转换,但是最终输出的听觉仅仅是语音的LMS声谱图,今天我们一起看一下这篇论文实现的思路。

Read More
技术

 2018-08-08  112

Improved Training with Curriculum GANs是来自斯坦福斯大学的一篇在WGAN基础上为GAN设计了课程, 通过不断地增强判别器的判别能力(增加课程难度),让生成器学习任务更困难,在越来越难的课程下不断进步自己的生成能力,从而实现高质量图像的生成。 虽然是在WGAN的基础上开展的工作但是Curriculum GAN的思想的普适性是有的,所以具有一定的指导意义。

Read More
技术

 2018-08-02  232

GAN在面部生成上已经取得了很大的成果,StarGAN已经可以实现人脸面部的高清和多属性的生成,但是这类生成是基于数据集的,往往在两幅属性不一的图像上做插值生成是实现不了的。当然将VAE或AE和GAN结合可以实现较好的插值生成,但是如何合理的插值仍然是一个困难的过程。GANimation介绍了一种基于动作单元(Action Units)为条件的新型GAN模型,可以根据ActionUnits(简称AC)的大小调节面部表情生成的幅度,从而实现面部表情不同幅度过程的生成。

Read More
技术

 2018-07-30  127

Mel频率倒谱系数(MFCC)常用于语音识别和说话人身份确认,然而MFCC还原为语音是一个困难的过程。我们前面在一些GAN实现声音到图像转换的论文中经常看到, 图像转换过来的往往是语音信号的MFCC图,由MFCC如何还原回语音对于实现完整的模态转换意义是很大的。 Speech waveform synthesis from MFCC sequences with generative adversarial networks 实现了由MFCC还原出高质量语音信号,实验演示可在这里查看(需要翻墙)。

Read More

subscribe via RSS

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏一下,你说多少就多少

打开微信扫一扫,即可进行扫码打赏哦