| TwistedW's Home

技术

The Sound of Pixels论文解读

2018-12-18 Cross-modal 147

视觉和听觉的同步性和相关性是两者在时空发生时就已经建立的天然联系，人类的认知往往是通过视觉和听觉协同建立的，我们看到溪水流淌，脑中不由自由的就会产生溪水潺潺的声音。视觉信息是可以辅助我们判断声音发生和所在位置，同时声音也能指导视觉关注。The Sound of Pixels便是利用视觉去指导混合音频的分离和定位。

技术

AVTS论文解读

2018-12-12 Cross-modal 135

视觉和听觉存在着紧密的关联，同时空下视觉和听觉不仅在语义上存在着一致性，在时序上也是对齐的。失聪患者可以利用视觉信息做出判断，盲人也可以利用听觉信息做出判断，而一般正常人对事物的决策往往是结合视觉和听觉协同完成的。NIPS2018的Cooperative Learning of Audio and Video Models from Self-Supervised Synchronization正是通过对视觉和听觉信息做同一性判断，在整体上优化视觉特征和听觉特征提取网络，在独立模态下也提高了各自的任务准确率。不同于我们之前说的Look,Listen and Learn，这篇论文不仅仅在语义上判断视觉和听觉的一致性，还在时序上做了严格对齐判断。

技术

Localized GAN论文解读

2018-12-07 GAN 262

GAN实现数据的从无到有是通过随机噪声z作为输入，在生成对抗下实现逼真数据的生成。这个过程是从全局的角度上直接生成数据样本，很难分析具体的z对生成带来的影响。我们只知道在随机噪声z的作用下生成的数据样本和真实数据样本在分布上是随着网络的优化而逐渐相近的。为了进一步刻画数据的几何特性和数据样本的流形。由齐国君团队在2018 CVPR上发表的Localized GAN通过局部坐标系来参数化不同位置的数据变换的局部几何，缓解了GAN生成多样性不足的同时，还实现了在半监督分类的优化。

技术

VAT（虚拟对抗训练）论文解读

2018-12-04 Adversarial Training 519

2014年5月GAN诞生了，这篇文章中并没有出现Adversarial Trainin这个词，而对抗训练（Adversarial Training）是在2014年10月被提出。虽然Adversarial Training是在GAN之后被提出，但是这两篇文章都是由Goodfellow创作，而且具体来说Adversarial Training 是包含GAN的。Goodfellow解释为训练一个GAN涉及训练对抗样本的分类器，其中分类器是判别器，对抗样例来自发生器。可以将GAN训练看作是更普遍的对抗训练类别的特例，在对抗训练下还有很多改进的方案，其中比较知名的是VAT(Virtual Adversarial Training:A Regularization Method for Supervised and Semi-Supervised Learning)简称为虚拟对抗训练，本文将对VAT作进一步解读。

技术

Look,Listen and Learn论文解读

2018-11-26 Cross-modal 140

这段时间一直忙着实验室的一些事，更新有点停滞，接下来一段时间我想把视听觉结合的这方面文章做一下梳理，感兴趣的小伙伴可以持续关注。视觉和听觉是紧密结合的，这两者可以说是同时产生的，确定一件事情是真的发生时，多模态信息之间结合确认是很有必要的，这也是人类和大多数动物所掌握的技能。如何让机器像人一样利用视觉和听觉的融合特征去判断一件事物和识别一些物体是《Look,Listen and Learn》一文的目的。文章简称《Look,Listen and Learn》的方法为$L^3-Net$，接下来的描述中也保持这一简称。

首页 23 24 25 26 27 末页第5页 / 共27页

AnHui HeFei, China

坚持学术与身体一起磨练
当时不杂

打赏

常用链接

博客日历

网站已运行

公元年月农历年年

一
二
三
四
五
六
日

感谢您的支持，我会继续努力的!

扫码打赏一下，你说多少就多少

打开微信扫一扫，即可进行扫码打赏哦