生活

 2018-08-21  108

研一是个信息量特别大的一个学年,研一往往会让你从小白晋升到专业领域的学习者,这么大的信息量当然要有一个好的总结来回顾一下。 一年的时间不算长但是确实可以让我们有一个很好的提升,我将回顾这一个学年的收获和心得,同时分享一下个人在学术上的感悟, 最后展望一下接下来的研二生活。

Read More
技术

 2018-08-18  234

跨模态之间转换生成在模态间差异大的时候是相对困难的,将一个模态编码得到的潜在变量作为条件在GAN的训练下映射到另一个模态的潜在变量是 Cross Domain Image Generation through Latent Space Exploration with Adversarial Loss 的核心。虽然这篇论文只是预印版,但是文章的这个跨模态潜在变量相互映射的思想是很有启发性的。

Read More
技术

 2018-08-17  289

VAE在数据编码得到的潜变量表示上很有启发性,可用于从训练数据中学习复杂的概率分布。Adversarial Variational Bayes 对抗变量贝叶斯(AVB)在VAE的基础上引入辅助判别网络(GAN)来实现用任意表达推理模型训练变分自动编码器,从而在VAE和GAN之间建立原则连接。 完善的数学理论依据加强了模型的可解释性,由于这篇论文涉及很多数学推证,如有理解错误请在评论区指出,谢谢!

Read More
技术

 2018-08-14  213

VAE在图像和数据的生成上有着不错的效果,对于单模态数据而言VAE可以不错的重构出图像(虽然有些模糊),但是对于双模态或者是更多模态下的利用VAE 则是困难的,JMVAE可以用于双模态的相互生成但是对于模态间维度差异很大或者是一个模态下缺失数据的情况下效果则是不乐观,这篇论文就是在JMVAE 的基础上为了克服模态下缺失数据造成的生成不理想提出了JMVAE-h和JMVAE-kl两种模型用于改进。

Read More
技术

 2018-08-11  198

人的视觉和听觉是紧密相连的,同时视觉和听觉是人类感知世界的来源。寻求视觉和听觉的转换在很多领域都有很大的意义,论文 Visual to Sound: Generating Natural Sound for Videos in the Wild实现了视觉到语音的 完整转换,最终的效果就是输入一段视频输出一段对应的音频。这和之前的CMAV还有所不同,CMAV虽然也实现了 视觉到听觉的转换,但是最终输出的听觉仅仅是语音的LMS声谱图,今天我们一起看一下这篇论文实现的思路。

Read More

subscribe via RSS

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏一下,你说多少就多少

打开微信扫一扫,即可进行扫码打赏哦