技术

 2019-03-09  290

图像模糊是影响图像质量的重要因素,显着降低了许多计算机视觉应用的性能,例如物体检测和人脸识别。随着深度神经网络的发展,计算机视觉领域的难题被一个个解决,单纯依靠先验核去实现图像去模糊的技术已经渐渐被取代。本文将针对CVPR2019 Unsupervised Domain-Specific Deblurring via Disentangled Representations一文进行分析,梳理一下基于深度神经网络下图像去模糊的实现方法。

Read More
技术

 2019-02-26  484

人脸编辑可以在大多数图像编辑软件上得到实现,但是这都需要专业知识,例如了解在特定情况下使用哪些特定工具,以便按照想要的方式有效地修改图像,同时操作图像编辑软件也是耗时的。基于深度学习下图像编辑得到越来越多的重视和应用,在GAN的推动下,图像风格转换、图像修复、图像翻译等等在近几年有了长足的发展。这篇文章将介绍基于GAN损失的端到端可训练生成网络,在人脸修复上取得了很棒的结果,同时该模型也适用于有趣的人脸编辑。

Read More
技术

 2019-01-23  1471

GAN在图像生成上取得了巨大的成功,这无疑取决于GAN在博弈下不断提高建模能力,最终实现以假乱真的图像生成。GAN自2014年诞生至今也有4个多年头了,大量围绕GAN展开的文章被发表在各大期刊和会议。以改进和分析GAN的数学研究、提高GAN的生成质量研究、GAN在图像生成上的应用(指定图像合成、文本到图像,图像到图像、视频)以及GAN在NLP和其它领域的应用。图像生成是研究最多的,并且该领域的研究已经证明了在图像合成中使用GAN的巨大潜力。本博客围绕An Introduction to Image Synthesis with Generative Adversarial Nets一文对GAN在图像生成应用做个综述。

Read More
技术

 2019-01-12  255

弱标签数据下的视听场景分析是一个很值得研究的问题,今天要说的这篇Identify, locate and separate: Audio-visual object extraction in large video collections using weak supervision是在论文作者已发表的论文Weakly Supervised Representation Learning for Unsynchronized Audio-Visual Events基础上的改进版本。我们将通过本次博客分析这两篇论文是如何在视听场景分析下实现场景识别、声音分离和声源定位的。

Read More
技术

 2019-01-05  189

音频和视频的同步是检验一场多媒体演示质量好坏的关键因素,这就像是没人希望花钱看一场音频和视频不对应的电影。然而多媒体演示的过程中,音频和视频信号通常由独立的工作流程管理 ,分开创作,处理,存储甚至传送到回放系统。这种独立操作增大了音视频同步性的考验,之前博客中分析的语义关联判断的AVC时序关联的AVTS都是对音视频关联性判断的方法。今天介绍的On Attention Modules for Audio-Visual Synchronization是将Attention应用在音视频时序同步性的判断。

Read More

subscribe via RSS

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏一下,你说多少就多少

打开微信扫一扫,即可进行扫码打赏哦