技术

 2019-01-23  1471

GAN在图像生成上取得了巨大的成功,这无疑取决于GAN在博弈下不断提高建模能力,最终实现以假乱真的图像生成。GAN自2014年诞生至今也有4个多年头了,大量围绕GAN展开的文章被发表在各大期刊和会议。以改进和分析GAN的数学研究、提高GAN的生成质量研究、GAN在图像生成上的应用(指定图像合成、文本到图像,图像到图像、视频)以及GAN在NLP和其它领域的应用。图像生成是研究最多的,并且该领域的研究已经证明了在图像合成中使用GAN的巨大潜力。本博客围绕An Introduction to Image Synthesis with Generative Adversarial Nets一文对GAN在图像生成应用做个综述。

Read More
技术

 2019-01-12  255

弱标签数据下的视听场景分析是一个很值得研究的问题,今天要说的这篇Identify, locate and separate: Audio-visual object extraction in large video collections using weak supervision是在论文作者已发表的论文Weakly Supervised Representation Learning for Unsynchronized Audio-Visual Events基础上的改进版本。我们将通过本次博客分析这两篇论文是如何在视听场景分析下实现场景识别、声音分离和声源定位的。

Read More
技术

 2019-01-05  189

音频和视频的同步是检验一场多媒体演示质量好坏的关键因素,这就像是没人希望花钱看一场音频和视频不对应的电影。然而多媒体演示的过程中,音频和视频信号通常由独立的工作流程管理 ,分开创作,处理,存储甚至传送到回放系统。这种独立操作增大了音视频同步性的考验,之前博客中分析的语义关联判断的AVC时序关联的AVTS都是对音视频关联性判断的方法。今天介绍的On Attention Modules for Audio-Visual Synchronization是将Attention应用在音视频时序同步性的判断。

Read More
技术

 2018-12-21  273

Dance motion generation是近年来兴起的研究,由音乐去自动生成排舞动作,是Dance motion generation的进一步发展和应用。Listen to Dance出自首尔大学的Music & Audio Research Group,实现了音乐到编舞的生成。专业舞蹈者在长期舞蹈创作中学习到了音乐和舞姿之间的联系和搭配,可以说是一种视觉和听觉建立的深层次的联系,这种关联在大数据支持下计算机是有理由去实现的。

Read More
技术

 2018-12-18  151

视觉和听觉的同步性和相关性是两者在时空发生时就已经建立的天然联系,人类的认知往往是通过视觉和听觉协同建立的,我们看到溪水流淌,脑中不由自由的就会产生溪水潺潺的声音。视觉信息是可以辅助我们判断声音发生和所在位置,同时声音也能指导视觉关注。The Sound of Pixels便是利用视觉去指导混合音频的分离和定位。

Read More

subscribe via RSS

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏一下,你说多少就多少

打开微信扫一扫,即可进行扫码打赏哦