成年人人脸识别成功后为什么显示暂时不能玩游戏哦,不如读读书来充实下自己,让


原创:岐山凤鸣转载请注明本站域名

理解可能有偏差,有错误请指出~

前言:这篇StyleGAN的follow文章很有点意思也是19年ICCV的Oral论文,是对StyleGAN进行的更多的理解和分析而正是这些理解和汾析,让StyleGAN有了超越仅仅生成高清图像的领域进而对GAN有了更多的理解也有了更多的操作空间。什么是对GAN的理解GAN本质是根据一个空间的分咘(如512d向量空间),得到另一个空间的分布(如的人脸空间)如果对这个有更多理解后,对原空间进行一些操作从而让目标空间根据伱想要的结果发生变化,这是非常awesome的

这图直接表明了StyleGAN的网络结构,很直观有两部分组成一部分是左边的mapping网络和右边的Synthesis网络。

先明确输叺输入是一段随机分布latent,记为zz首先zz经过Norm后,直接由多个串联的FC进行映射映射到latent space \omegaω,关于这个的中文说法有的说是"潜空间"或者"隐空間",总之我认为这个就是一个编码空间每段编码经过仿射变换意味着一个 style,之后将style进行合成就能形***脸

这里知道了A的输出是什么之後,再看最右边是n个高斯噪音输入,这个是直接对特征图作用的关于GAN中加噪音的原因可以参考别的资料,这里基本就是引入随机的细節接下来是右边网络的细节部分,看下两图:

这是一个自顶向下的结构最顶上的输入是一个const的比如4x4x512的矩阵,层层会进行传递每层都包括style的输入和噪音的输入,输出是一个[res, res, channel]的矩阵跨层的时候需要降采样,层内传递需要一个AdaIN模块和3x3的conv最底层输出的是[]的生成图像。AdaIN的模塊公式上面给了意思很简单,对特征图进行标准化后和两个style值进行平移和缩放,然后一起经过conv这个操作很像BN,但不同的是两个style值是根据编码来的而不是特征图,这里对理解来说很重要理解了BN也就能理解这个AdaIN模块的重要性。

简略的说从代码层面考虑,整个过程很簡单就这样:

  1. 先得到一个初始const图,往下进行输入
  2. 进行每层结构的计算结构开始需要一个降采样,比如(4,4,512)降采样到(8,8,512)给feature_map加点高斯噪音,然後标准化对输入的512的latent进行放射变换得到两个y,根据两个y对标准化的feature_map进行放缩和平移之后输入conv进行channel变化
  3. 将n个结构都跑完,前几个结构都昰4x4,8x8这种小的主要是学的轮廓啊,头发在哪啊这些玩意中间的几个结构比如32x32,64x64这种大一点的,主要是学的更多的人脸表情啊眼睛啊什么嘚,最后几个更大的比如256x256,512x512,学的就是超细节的比如毛发啊颜色啊什么的。

所以可以看到这个过程并不难有兴趣的同学可以去读,读源码嘚话一个完整的链是这样的:

  1. 302行的G_style是完整的生成器流程
  2. 378行直接将dlatent输入syntheis网络即可,噪音均在中间生成

只有上述过程全部了解,才能开始丅面的内容所以要理解如何进行嵌入和编辑,必须对StyleGAN有很完整的理解

刚刚已经说了,它的前面几层在做什么前面几层是4x4,8x8这种小图,湔面几层的风格即是脑袋轮廓头发位置这些显而易见的宏观风格。

所以它的中间几层不断的一点点放大,去学的细节就会越来越多n_layers樾多,给的细节就越丰富细节程度是自顶向下的那种,最顶部的细节是粗糙的最底部的细节是最精细的。

每一个结构里输入的dlatent 512编码,都仿射变换到了两个数y然后带噪声的特征图通过标准化后用这两个y进行平移和放缩(AdaIN),所以实际控制风格的只有yy来自于dlatent,这即表礻输入当前层的dlatent即包含风格

举个很简单的例子,比如你最后要输出256x256x3的清晰图像那么整个res的变化是:

这一共是7个要变化的res,也就是需要7個结构每个结构是包含两层的(一层欠采样,一层正常变换)所以一共14层,那么原始的z编码后是得到(14, 512)的编码分别输入这14层。

第一层の前首先先init了一个(4,4,512)的东西这时候还不是图像,然后加个噪音后标准化将dlatent的第一个(512)提出来放射变换到y1,y2后对标准化后的图进行控制平移和放缩,然后一层层的输入

所以就是这么简单,(14,512)的编码一层层逐级的在控制人脸的生成。如果你改变(14,512)的前两三层可能这个人的脑袋就變了,如果改了最后两三层可能这个人的肤色什么的,毛孔什么的会发生变化

既然了解了什么在控制人脸生成后,我们要进行控制僦变得很简单,只需要控制这个dlatent即可了

那么到底如何控制?比如我现在有一张照片I里面描述的是一个人严肃的表情,我想让他笑起来怎么办

那么首先,先预训练上述的StyleGAN得到了G,其中输入(14,512)的编码会通过G得到一张256,256的图,这时候需要做一个类似AE结构的训练训练什么?

峩们得训练一个编码器输入I后,得到人脸识别的emb前一层的feature_map然后用这个feature_map经过一个编码结构,得到(14,512)的编码然后输入参数冻结的G,得到了假图I'再通过一个预训练的人脸识别网络N(I, I')增加一个损失L给整个编码器,训练编码器

这到底在干嘛?很简单我们希望能够得到I这张照片嘚编码而已,也就是希望控制预训练且参数冻结的G生成出I这张照片这样我们才能得到I的dlatent,得到dlatent后通过控制dlatent才能编辑I这个人脸的特征,仳如发色什么的

到这步,我们手上得到了两个东西生成器G,编码器E要让I笑起来,怎么办

这时候需要得到一组人脸数据对(I_1, I_2)(I1?,I2?),满足一个条件前者是严肃不笑的照片,后者是笑的照片都进入E后得到一组两个编码(E_1,E_2)(E1?,E2?),根据之前的理论很明显啊,这一组从E_1 -> E_2E1??>E2?嘚方向向量即是控制人脸笑起来的关键因素,当然这个方向向量也是(14,512)的shape所以现在唯一要做的,就是求解出这个方向向量然后作用到E(I)仩,那么G(E(I) + \vec{w})G(E(I)+w)就是让I笑起来的图了

其他的例如表情迁移(哭->笑)、特征迁移(白发->黑发)这些都用类似的操作就可以很容易的实现。关于求解这个向量这个问题下节进行详述。




原创:岐山凤鸣转载请注明本站域名

这段时间做了很多GAN相关的研究,因为希望将之前投稿CVPR的文章結合GAN一起做一点更强的工作,甚至是开创性的工作

所以我兴冲冲的从DCGAN开始,复现了一个当前国内还没有的仅靠一段声纹生***脸的应鼡具体可以从这里看到。当然这个是从DCGAN出来的,人脸呢很模糊,细节基本都不清晰分辨率更是只有可怜的64x64,还不能改

于是从DCGAN转戰到17年传言巨强的WGAN,根据WGAN-GP的各种原理对我的网络进行了从网络结构,到loss层面的大修改这时候我还不能充分的理解WGAN带来的巨大的变革,呮能从它论文中对DCGAN错误的推导和大家纷纷惊叹的评论中知道,这个解决了很多原生GAN的问题让调参变得更简单。

从了解到它的改进主偠基于四点:

  1. D和G的loss,不再用以前的sigmoid交叉熵形式而是直接对向量编码的输出取sum
  2. 采用不基于动量的优化算法

相比于具体的技术细节,我这里哽想分享一下我个人的经历和感受到这里为止,两年来所有的深度学习模型机器学习模型,我都尽量的从头到尾自己按照论文和相關的代码进行复现,自己调出一套最好的参数从来不会直接把别人的代码弄下来,简单复现一下就再也不去探讨细了而遇到WGAN的时候,絀现了第一个问题那就是明明计算图、输出均是按照正确的形式搭的,在进行了从DCGAN形式到WGAN形式的转变后G竟然无法生成正常的图像,它嘚输出变成了一团糟的乱码

我尝试把loss再改回去,发现就没有问题了这仿佛在说DCGAN比WGAN的效果要好,于是回头进行了各种检查发现了两个問题:

  1. 我的框架里除了D做判别外,还有一个分类器C做人脸的类别分类
  2. GAN的调参之路是比图像识别更难的我还需要进一步的调整参数

所以就陷入了问题,上述两个总结一点便是经验不足所以这里我陷入了迷茫,究竟要怎么改要严格改为和已有代码仓库中一样的参数么?另外一条线里我在研究GANimation的损失,这里同样遇到了问题讲究太多了。这才深深明白深度学习被称为炼丹的原因在之前图像识别的境界里沒有遇到这么多和理论复杂的参数。

之后放弃了WGAN的调参一边进行动画的分析,一边继续寻找更好的人脸GAN直到我遇到了StyleGAN,这下可把我震撼到了高分辨率的生成,举个刚出炉的生成的栗子:

很难相信这是用算法生成出的假脸因为细节实在是太丰富了,用我自己的眼睛去看我甚至相信这确实就是一张正常的照片,但可惜世界上不存在这样的人有好事者之后做了一个很火的网站,每一次刷新都能得到┅张不存在的人脸图,这非常的神奇不得不说NVIDIA大法好。

于是我对着StyleGAN准备进行重现和学习,先按照Guideline进行了test的尝试这时候我还没意识到什么,只是感叹这个跨平台的性能做的太好了直接下完代码后,就能够跑起来得到测试结果直到看了看细节,再看了看train我惊呆了,哃样是TensorFlow为什么他这么秀?TensorFlow的代码居然可以写成这样

这里必须要原谅我的无知,在我早期进行图像识别时一般是先参考TF官方的源代码嘚示例,进行搭建从给出的各个经典模型里进行代码写法的归纳总结,但torch的代码看多了以后我一度认为Python里torch的代码写的比TF优雅多了,而苴更加的pythonic我在使用TF进行计算图搭建,数据处理的时候往往都写成流处理的模式,和写sh脚本一样达到效果即可,很难实现其的封装性

原本的TF流程大致是这样:

  1. 数据输入、预处理的离线或Tensor行为
成年人人脸识别过后登陆王者为什么显示暂时不能玩游戏哦不如读读书来充实下自己,让游戏也休息一会... 成年人人脸识别过后登陆王者为什么显示 暂时不能玩游戏哦,不如读读书来充实下自己让游戏也休息一会。

下载百度知道APP抢鲜体验

使用百度知道APP,立即抢鲜体验你的手机镜头里或许有别人想知道的***。

  深圳大学的宿舍楼”德玛西亞八条楼规“了解一下

  毕业多年以后,能让学生回味无穷、念念不忘的大学记忆除了食堂不断跨越自我极限、推陈出新的黑暗料悝,卧虎藏龙、技能点加载爆满的宿管大妈大叔也应该拥有自己的名字

  虽然摸不着头脑,依然陪着整栋大楼在IG夺冠之夜彻夜不眠的是平时一脸紧绷的宿管阿姨。

  连夜下了大雪清早就把门口的积雪清得干干净净的,是对农业重金属情有独钟的宿管大叔

  宿管员和当代大学生共享着校园的脉搏,是同学们脱离小家后遇到的第一个“大家长”

  宿管大叔,四连吓大学四年,见宿管大叔的佽数比你妈还多。

  宿管员的出现起源已不可考。可以肯定的是有学生集体住宿的地方,就有宿管员

  宿管员的年龄一般在40臸60岁之间,因此通常自带“大妈”“大爷”等亲切的后缀

  丰富的人生经验不但让他们在与违规电器的搏斗中屡屡获胜,更让他们积累了大量实用(或不怎么实用)的技能和思维素材随时做好向同学们传道授业的准备。

  宿管员的工作范围宽广得犹如浩瀚的海洋——

  上至把握门禁准时准点开门锁门,实力劝退企图看凌晨场电影首映的“浪子”们下至对同学们的婚恋状况展现出异乎寻常的好渏与关心,在毕业典礼上提出“缘分就像蒜蓉生菜端着端着就黄了”之类的原创生猛婚恋理论。

  宿管阿姨一眼看破你们“修电脑”的诡计,而且还懂杀毒软件

  硬核宿管员,是一种中国特产他们是一座宝矿,越往深挖大学生就只会越感叹于自己的才华匮乏。

  说到学习能力宿管员绝对是不输清北保安员的第一梯队。

  上海交大一位和儿子一起考上研究生的宿管阿姨原阿姨登上了热搜

  49岁的原阿姨对学习的热爱是源自骨髓的,她原是来自河南的银行职员2011年到上海全职陪儿子读书后,顺手参加了***成功考取了(,)漢语言文学本科。

  在应征成为上海交大留学生公寓的宿管后原阿姨继续在开挂学霸的路上一往无前,上完了五百多节网课、和留学苼坚持用英语交流她的一句“不在工作的路上,就在学习的路上”

  让多少周末窝在宿舍,沉迷外卖和游戏的当代肥宅大学生汗颜

  优秀的人不但自己会发光,还照亮别人

  充满学习热情的原阿姨,还鼓励初时只是技校生的先生读电大大专、自学考本科、考研究生一路刷新自己的学历,最后在她的支持下,丈夫考上了博士轻松碾压99%的同龄人。

  河南科技大学宿管阿姨遇到留学生还鈳以随时切换英文。

  你以为宿管员在楼下坐着就是坐着每天过得像同一天吗?岿然不动的沉稳外表下也许他们的大脑正在以180倍速高速运转。

  黄澄澄、金灿灿不得不佩服宿管大叔塑造画面感的能力。

  浙江工业大学的刘叔叔以2016年到港澳旅游回来写小作文游後感为契机,三年来在朋友圈写了18万字日记被儿子评价为“中国乡村版的阿甘”。

  刘叔叔的朋友圈日记

  他退休做宿管之前,當了多年语文老师发表语句朴实但意味深长的朋友圈日记,也是老本行的延伸

  除了文学类,宿管界也能推出实用类的作家

  武汉理工学院的呙叔叔,结合自身九年宿舍管理的实战经验历时三年有余,撰写出一万多字的《如何做一名合格的大学生宿舍管理员》掱册回答了包括“宿管员与当代大学生相处要如何与时俱进”等38个问题,堪称“宿管版知乎”

  实际上,呙叔叔退休后成为宿管员の前曾担任县商业局副局长,石油公司党委副书记、副总经理还被评选过县劳动模范。

  经历多年来职场大大小小的报告编写一夲小小的宿管心得手册,小case而已

  打油诗,宿管阿姨大叔写得堪称一流

  “同学,请不要带外人上楼”当你兴冲冲领着准备借宿一宵的朋友踏进宿舍门坎的时候,火眼金睛的宿管阿姨已经洞察了一切

  你以为当代大学生都长得差不多,小透明的自己一定不会被注意实际上,你的一切动静都已经刻在宿管阿姨的心坎上

  武汉科技大学城市学院的张阿姨,管理宿舍一年多七层楼700多名学生,每一个都能叫出名字堪称行走的“人脸识别机”。

  “人脸识别机”宿管张阿姨

  她通过带有照片的学生个人信息表来训练自己嘚认人能力通过打招呼、聊天来反复确认记忆。认脸只是初级操作阿姨还能记得每个人的年级、专业、寝室号。送外卖的、发广告的外来人员在张阿姨面前都是小bug,一抓一个准

  独乐乐不如众乐乐,一个人玩最强大脑还不过瘾一群人来pk更带感。

  2018年江苏省還举办了一届园林绿化、物业管理技能大赛,集结全省54所高校的宿管员其中“火眼金睛”的比赛项目,参赛者要从20位对象中快速找到伍张证件照中对应的人物。

  宿管大叔阿姨正在进行“人脸识别”看起来是相当紧张了。

  拔得头筹的(,)刘阿姨只用了29秒就完成了挑战,效率之高堪比交通违规摄像头。

  这一届宿管阿姨掌握点唱歌技巧是基本功,更有才华的已经开始自己谱曲写歌了。

  烸年进进出出的学生源源不断地为充满艺术细菌的叔叔阿姨们提供无尽灵感谱出一曲曲充满感情的乐章。

  华中师大的“全能大叔”玩起了电吉他,看起来是相当摇滚了

  (,)的骆叔叔,年轻时在地方文工团工作退休后当宿管七年,为送别同学写出一首《牵挂》為迎接同学谱出一首《愿望》;

  骆叔叔的作词作曲,送别学生

  (,)的肖叔叔,用二胡迷倒大片学生还能用二胡演奏90后经典名曲《東风破》《简单爱》;

  海宁市某中学的方阿姨,每年坚持为高三学生创作舒缓系诗歌最新作品《静心歌》唱到“脖子扭扭,屁股扭扭;平心静息咱们来练静气“,可可爱爱为学生解压。

  海宁市某中学的方阿姨

  能担任美术担当的宿管员也大有人在,武汉笁业职业技术学院的刘叔叔写得一手好字还在值班室办了个免费的书法学习班,拯救一群只会打键盘不会提毛笔的青春小屁孩;

  福建理工学院的李叔叔以门做画板,积累多年后在学校开了次个人画展;

  吉大宿管大爷的手绘表情包走红

  山东财经大学的刘叔菽,爱读《论语》诗词有人上门求教,也只谦虚地推荐了田英章的字帖……

  除了能歌还有许多善舞的宿管员,比如枣庄学院的高夶爷拥有十七年的舞蹈功底,堪称“男寝郭富城”

  灵魂舞者!宿管大叔寝室楼内秀“恰恰”学生们纷纷叫好点赞。

  虽然现在身段不复矫健凭一段恰恰舞视频惊艳朋友圈,还是游刃有余的发扬中华传统文化,劝说大家脱离佛系、积极生活全靠这群宿管文娱委员担当宣传大使,向大学生们积极宣发了

  多少人为大学专业没学编程,毕业后找工作没有竞争力而后悔不迭但是,宁波大学的陳大爷用行动向你证明:学编程与年龄无关,与心态有关

  高中没毕业的陈大爷,从一次帮老师找学生遇到的困难受到启发靠自學和向学生求教,从零开始搭建起自己的宿舍管理系统从学生的姓名、学号、学院到籍贯,甚至职务、性格、爱好都能查到好比单机蝂的世纪x缘数据库。

  陈大爷的数据保密意识还很强为自己的独家系统设了双重密码,在专业人士面前也一点不露怯

  得勤奋动腦、燃烧脑细胞的,除了编程还有编段子。

  充满大爱的宿管员将内心满满的正能量用语言艺术的手法传播给宿舍楼中的每一位同学

  淮阴师范学院的赵阿姨,在小小的黑板报上孜孜不倦地展示自己高速运转的小脑瓜:值班室换了新号码用红桃同花顺的扑克牌连荿一片来通知;

  毕业季,住男寝的同学们“一路顺风后会有妻”;

  爱动脑子的宿管员们,可不是静坐一整天的没有灵魂的躯壳换个环境,也许他们就能够成为追热点、写文案的新媒体小编了

  不知红了(liao)赵阿姨

  宿管员选择这个工作,到底是为了什么

  在单纯的校园环境中躲避外界的纷纷扰扰?包吃包住、稳定朴素的平和生活也许都有。但还有一种生活富足,就来看看孩子们打发悠闲的退休时光。

  这些由隐形富豪乔装扮演的宿管完全无法在外形上分辨。

  他们和其他宿管员一样穿半旧的工衣工鞋,吃办公位桌子下电饭锅里煮的火锅用的也是几年前出的国产手机。

  但实际上他们也许是家中藏书上万本的退休高级领导,也许昰儿女出人头地、出手阔绰的幸福爸妈也许是开minicooper上班的新晋拆迁户。

  总的来说这群宿管之所以当宿管,不是为了薪酬而是为了愛好。你以为宿管大叔大妈在为你的日常生活服务而实际上也可能是你在为他们的退休生活带来乐子。

  来 源:有间大学微信公众号

参考资料

 

随机推荐