技术

 2018-10-02  273

丰富的背景和纹理图像的生成是各类生成模型追求的终极目标,ImageNet的生成已然成为检验生成模型好坏的一个指标。在各类生成模型中GAN是这几年比较突出的, 18年新出的SNGANSAGAN让GAN在ImageNet的生成上有了长足的进步, 其中较好的SAGAN在ImageNet的128x128的图像生成上的Inception Score(IS)达到了52分,BigGAN 在SAGAN的基础上一举将IS提高了100分,达到了166分(真实图片也才233分),可以说BigGAN是太秀了,在FID 指标上也是有很大的超越。

Read More
技术

 2018-09-27  270

跨模态生成在GAN和VAE的冲击下渐渐的被人关注,高维数据的生成本来就很有挑战,跨模态生成更是困难重重,之前也写过几篇跨模态生成的论文解读, 今天看一下ECCV 2018的一篇跨模态生成的文章Lip Movements Generation at a Glance。文章关注于 人物发声音频到人物唇部运动视频的生成,想象一下让文弱女子朗读豪放派诗词的嘴部动作是不是还蛮有意思的,哈哈。

Read More
技术

 2018-09-18  268

视频生成在计算机视觉上已经是很困难的工作了,按照描述去生成视频是更具有挑战性的工作。To Create What You Tell: Generating Videos from Captions 简称为TGANs-C,在实验上实现了由描述的标题生成相对应的视频,这个工作很有意义,整体思想上采取GAN为主题框架实现,我们一起来读一下。

Read More
技术

 2018-09-13  202

异常检测(Anomaly Detection)是计算机视觉中的一个经典问题,生活中大部分的数据是正常数据,有很少一部分属于异常数据,在很少的异常下如何检测出异常 是一个困难的课题,甚至不知道什么是异常,只知道不属于正常的就算异常的话又如何检测异常呢?GANomaly 便是可以实现在毫无异常样本训练下对异常样本做检测,我们一起来读一下。

Read More
技术

 2018-09-07  150

当几个人异口同声的说话时,往往会造成大家都在说但是谁说的话都听不清的问题。这个时候在这样的音视频分离出一个人的声音就可以很好的解决这个 问题。The Conversation:Deep Audio-Visual Speech Enhancement正是在这种情况下提出的, 通过深度神经网络根据视频中人物的唇部动作指导提取出与之对应的音频的幅度和相位,从而提取出这个人的说话音频。实验上可以最多支持5个人分离出 独自的音频。

Read More

subscribe via RSS

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏一下,你说多少就多少

打开微信扫一扫,即可进行扫码打赏哦