周报2017.04.03-张猛

一、本周工作 自己简单做了一个小小的手写体汉字训练集,共122张图片,输入图像大小为9696;输出图像大小为6464,总共8*8=64张;进行了10000 epoch;有趣的是,最初64张图片中能产生4-5个汉字,随着迭代次数的不断增加,产生的64张图像多样性越来越差,迭代到1200次以后,这64张产生的都是同一个字;也印证了论文中提到的GAN在训练过程中的不稳定:判别器越来越好,生成器越来越差;多样性也不断减少。同时,在实验中也反映了另一个问题:生成器与判别器是否同时在进化,进化到什么程度,表现不出来,也就是可解释性差。更有趣的是:在6000次迭代之后,生成汉字的多样性又开始丰富,即使可解释性差,从实验结果来看,本实验最终的效果说明,生成器和判别器参数更新比较均衡,训练过程比较稳定。(注:仅代表个人实验观点) 目前在各种会议(ECCV、NIPS、ICIR、arXiv)上发表的GAN相关文章,涉及到的应用方向如下:对抗型自编码器、生成图像、图像修复、超分辨率、去遮挡、语义分割、目标检测、视频预测、纹理合成与风格转移、面部生成与编辑、对话生成。 二、下周计划 GAN可视化尝试 ...
Read More

2017.03.27 张猛

一、本周工作 关于图像修复,纹理生成,超分辨率三方面,了解了一下目前在论文中有记载的实现方式都有什么,其中, 图像修复实现的方式有:基于稀疏表示/纹理合成/局部结构信息/几何信息/马尔科夫随机场/全变分模型/压缩感知等,方式较多,实验结果也较成熟; 纹理生成实现的方法有:Arnold正反变换/特征匹配/马尔科夫模型/粒子群优化算法/块缝合/块采样等; 超分辨率实现的方式有:卷及神经网络/基于插值(传统插值/ 边缘指导插值) /基于建模/基于学习等; 总体来讲,以上方法在对应的功能实现方面做了更好的优化,实验效果也更逼真。若要相关方向的应用,可以考虑超分辨率,大概思路如下: 监控摄像头下,由于采集到的图像数据量非常大,但是存储空间有限,所以图像的分辨率也就变得低了;当我们需要某张图像的细节信息时,由于分辨率问题,图像并不是很清晰,也就往往捕捉不到关键信息。若是使用超分辨率,将图像中的细节丰富处理,可能就是某些人员的需求。 二、下周计划 将应用想法商讨,落实,并进行深入了解。 ...
Read More

周报-张猛 2017.03.20

一、本周工作 对于WGAN的大体结构已有初步了解,但是其中的对WGAN的深度解析,公式由来以及推导过程有一定难度,现在还没有真正理解。按照论文中对DCGAN不足之处的理解以及对应的做出对应的优化,可以看出,WGAN从结构上和从训练的难易程度上,比较DCGAN确实有些改进,也比较好训练,也更加稳定。 本周从GitHub上Down下来些源码,本想在机子上跑一下,看看结果咋样,但是代码基本上都是基于GPU运行的,由于本机的基本环境不支持,所以代码也没有跑成。 二、下周计划 想试试GAN的其他应用比如图像翻译,超分辨率应用,能有什么新结果。 ...
Read More

周报-张猛 2017.03.13

一、本周工作 关于GAN音频实现,训练集是音乐,通过实验结果发现,效果并不是如期那么理想,合成之后断断续续,且没有音乐的特征,就目前GitHub上关于音频仅有的实验结果,效果不理想。 查阅资料时,忽然看到一篇文章,是关于Wasserstein GAN的,据文章中的介绍,WGAN比DCGAN(目前应用和代码使用率最高)的结果更优质,但WGAN和DCGAN到底区分何处,正在理解中。 通过查阅资料,进一步证明,DCGAN方式无法显示Pdata 的分布,也就是,没有办法将DCGAN的分布直观的表示出来,此为其一; 在训练过程中,并不是通过得到的概率进行下一次的训练,而是通过计算交叉熵作为下一次训练更新参数的依据,此为其二。 二、下周计划 把实用新型出现的个别问题进行仔细校正; 将WGAN的来龙去脉摸清楚; 试运行WGAN代码; ...
Read More

周报-张猛 2017.3.5

本周工作 主要进行两个工作:GAN论文以及相关资料的研读和学习;跑通DCGAN代码。 本周进度 通过开学对GAN相关资料的继续深入,对假期中的相关工作进行了整理,并完善了GAN的汇报PPT,于周三下午做了相关汇报;另一方面,通过对代码的运行以及参数更改测试,完成了10次迭代运行,通过结果的对比,得到的效果还不错,从视觉的角度,感觉参数更正的方向是正确的。 本周问题 怎样利用数据说明,DCGAN代码的生成模型是效果如何?目前此问题无果,正在探寻中··· 下周计划 1. 关于音频方面的代码,跑起来,看看效果怎么样; 2. 就GAN的发展方向以及目前成效,思考具体细化到应用,该是如何? ...
Read More

GAN到底是个什么玩意儿???

生成式对抗网络(GAN)是近年来大热的深度学习模型。 GAN原理介绍 说到GAN第一篇要看的paper当然是Ian Goodfellow大牛的Generative Adversarial Networks(arxiv:https://arxiv.org/abs/1406.2661),这篇paper算是这个领域的开山之作。 GAN的基本原理其实非常简单,这里以生成图片为例进行说明。假设我们有两个网络,G(Generator)和D(Discriminator)。正如它的名字所暗示的那样,它们的功能分别是: G是一个生成图片的网络,它接收一个随机的噪声z,通过这个噪声生成图片,记做G(z)。 D是一个判别网络,判别一张图片是不是“真实的”。它的输入参数是x,x代表一张图片,输出D(x)代表x为真实图片的概率,如果为1,就代表100%是真实的图片,而输出为0,就代表不可能是真实的图片。 在训练过程中,生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D。而D的目标就是尽量把G生成的图片和真实的图片分别开来。这样,G和D构成了一个动态的“博弈过程”。 最后博弈的结果是什么?在最理想的状态下,G可以生成足以“以假乱真”的图片G(z)。对于D来说,它难以判定G生成的图片究竟是不是真实的,因此D(G(z)) = 0.5。 这样我们的目的就达成了:我们得到了一个生成式的模型G,它可以用来生成图片。 ...
Read More

相机控制进度和遇到的问题

1 进展情况:目前能够实现的功能:打开、关闭相机,相机型号识别和相机电量,关键版本等信息的读取和显示; 拍照功能和其参数设置; 视频的开启与关闭实时显示。 2 遇到的问题:将照片保存到相机中功能未实现; 相机功能调节和其参数的设置与更新没有理解,未实现。 3 亟待解决的问题:相机参数调节、更新需要搞清楚; 后续的裁剪功能功能和录像功能以及保存到电脑上的功能实现。 ...
Read More