为什我的游戏不能玩有一拦截器是什么正在运行在那里关闭

&figure&&img src=&https://pic2.zhimg.com/v2-30c1960dba52ccb8da16dd8_b.jpg& data-rawwidth=&1318& data-rawheight=&658& class=&origin_image zh-lightbox-thumb& width=&1318& data-original=&https://pic2.zhimg.com/v2-30c1960dba52ccb8da16dd8_r.jpg&&&/figure&&p&最近,李飞飞老师得意门生Andrej Karpathy大神在推特上连发几条twitter,细数了六种神经网络研究中的常见错误。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-30c1960dba52ccb8da16dd8_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1318& data-rawheight=&658& class=&origin_image zh-lightbox-thumb& width=&1318& data-original=&https://pic2.zhimg.com/v2-30c1960dba52ccb8da16dd8_r.jpg&&&/figure&&p&下面我总结一下我学习过程中遇到下面6条中的4条。&/p&&p&&br&&/p&&p&1、you didn't try to overfit a single batch first&/p&&p&正确解释@张楠 这句话是说在用大数据集训练之前先用小数据集试一下,排除一些明显的错误。&/p&&p&之前的我误解的解释如下:&/p&&p&没有先试过所有训练数据作为一个大batch训练,我们都知道,在训练神经网络的过程中,对于数据会有三个方法处理,一个是min-batch,一个是SGD,一个是Andrej Karpathy提到的所有数据作为一个batch。虽然将所有训练数据作为一个大batch训练能够保证梯度是往正确的方向移动,但是我们绝大部分都是min-batch,然后调节其中的batch-size这个超参数,我个人也没有尝试过将所有训练数据作为一个大batch训练,之后可以试试。(这里额外说一句,batch-size是很重要的超参数,需要仔细调节)&/p&&p&&br&&/p&&p&2、you forgot to toggle train/eval mode for the net&/p&&p&忘了为网络切换训练/评估模式&/p&&p&这个理由主要是针对model 在训练时和评价时不同的 Batch Normalization
Dropout 方法模式。&/p&&p&&br&&/p&&p&3、you forgot to .zero_grad()(in pytorch) before .backward()&br&忘了在.backward()之前.zero_grad()(在pytorch中)&/p&&p&这个错误我真正碰到过,忘记了写.zero_grad()各种nan,导致结果非常差,最后找了一天才找到。大家可以在实在找不到原因的是,打印梯度出来看看,是不是有某些层参数为0,几乎没有学习,有些为nan了,去逐步找原因。&/p&&p&&br&&/p&&p&4、you passed softmaxed ouputs to a loss that expects raw logits&br&将softmaxed输出传递给损失函数,本来期望是logits值,而不是过了softmax之后的值。&/p&&p&大白话讲就是给函数传进去的参数错啦!!我们在编写代码的时候很容易犯这种错误,因为最后run起来的时候,它不报错啊,哥,不报错,只是结果很差,这很难受啊,我们很难发现错误,第一感觉,我去,idea不work,所以大家效果不好的时候,不要放弃啊,仔细看看有没有常见的bug!!&/p&&p&&br&&/p&&p&5、使用BatchNorm时,您没有对线性/ 二维卷积层使用bias = False,或者反过来忘记将其包含在输出层中。 这个倒不会让你失败,但它们是虚假的参数&/p&&p&答案来自&a class=&member_mention& href=&https://www.zhihu.com/people/6a30aedbb9855bdfa80b865& data-hash=&6a30aedbb9855bdfa80b865& data-hovercard=&p$b$6a30aedbb9855bdfa80b865&&@陈明jian&/a& 如果卷积层后面跟着BatchNormalization的话,卷积层就不需要偏置参数b,只需要w参数。&/p&&p&6、以为view()和permute()是一样的事情(不正确地使用view)&/p&&p&答案来自&a class=&member_mention& href=&https://www.zhihu.com/people/177b4d3c75fdbd7c6c87d& data-hash=&177b4d3c75fdbd7c6c87d& data-hovercard=&p$b$177b4d3c75fdbd7c6c87d&&@深度学习修汽车&/a& 举例说明:比如要将一个(2, 12)的tensor改为(4, 2, 3)的tensor。这样就不能直接用view而需要多次用permute()来交换axis(转置2D的matrix)来达到目的。&br&&/p&&div class=&highlight&&&pre&&code class=&language-python3&&&span&&/span&&span class=&n&&tc&/span&&span class=&o&&.&/span&&span class=&n&&manual_seed&/span&&span class=&p&&(&/span&&span class=&mi&&1&/span&&span class=&p&&)&/span&
&span class=&n&&x&/span& &span class=&o&&=&/span& &span class=&n&&tc&/span&&span class=&o&&.&/span&&span class=&n&&randn&/span&&span class=&p&&(&/span&&span class=&mi&&2&/span&&span class=&p&&,&/span& &span class=&mi&&12&/span&&span class=&p&&)&/span&
&span class=&nb&&print&/span&&span class=&p&&(&/span&&span class=&n&&x&/span&&span class=&p&&)&/span&
&span class=&n&&y&/span& &span class=&o&&=&/span& &span class=&n&&x&/span&&span class=&o&&.&/span&&span class=&n&&permute&/span&&span class=&p&&(&/span&&span class=&mi&&1&/span&&span class=&p&&,&/span& &span class=&mi&&0&/span&&span class=&p&&)&/span&
&span class=&nb&&print&/span&&span class=&p&&(&/span&&span class=&n&&y&/span&&span class=&p&&)&/span&
&span class=&n&&z&/span& &span class=&o&&=&/span& &span class=&n&&y&/span&&span class=&o&&.&/span&&span class=&n&&view&/span&&span class=&p&&(&/span&&span class=&mi&&4&/span&&span class=&p&&,&/span& &span class=&mi&&3&/span&&span class=&p&&,&/span& &span class=&mi&&2&/span&&span class=&p&&)&/span&
&span class=&nb&&print&/span&&span class=&p&&(&/span&&span class=&n&&z&/span&&span class=&p&&)&/span&
&span class=&n&&a&/span& &span class=&o&&=&/span& &span class=&n&&z&/span&&span class=&o&&.&/span&&span class=&n&&permute&/span&&span class=&p&&(&/span&&span class=&mi&&0&/span&&span class=&p&&,&/span& &span class=&mi&&2&/span&&span class=&p&&,&/span& &span class=&mi&&1&/span&&span class=&p&&)&/span&
&span class=&nb&&print&/span&&span class=&p&&(&/span&&span class=&n&&a&/span&&span class=&p&&)&/span&
&/code&&/pre&&/div&&p&大家可以踊跃讨论。&/p&
最近,李飞飞老师得意门生Andrej Karpathy大神在推特上连发几条twitter,细数了六种神经网络研究中的常见错误。下面我总结一下我学习过程中遇到下面6条中的4条。 1、you didn't try to overfit a single batch first正确解释@张楠 这句话是说在用大数据集训…
&figure&&img src=&https://pic3.zhimg.com/v2-fbf995e6b8c4bcdd1bd8e7_b.jpg& data-rawwidth=&640& data-rawheight=&400& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic3.zhimg.com/v2-fbf995e6b8c4bcdd1bd8e7_r.jpg&&&/figure&&p&位列古今六十四将的邓艾,下场为什么那么惨?&/p&&p&培养自己的大局观的三个锦囊……&/p&&p&&br&&/p&&p&&b&1/6、从奴隶到将军&/b&&/p&&p&&br&&/p&&p&小时候看《三国演义》,留下了一个印象:如果生在一个充满变化、注重人才的年代,寒门子弟靠自身努力,还是可以建立一番功业的。&/p&&p&&br&&/p&&p&长大后才发现,三国里真正的政治地位低下的寒门子弟,其实并不多。能力出类拔萃的,多少有点家族背景。&/p&&p&&br&&/p&&p&不过,倒是有一位名将,出身“典农部民”,就是军队里开垦荒地的农民,没有人身自由,小时候当过放牛娃,这个人就是魏国后期的灭蜀大将邓艾,基本上算是三国名将中出身最低贱的了。&/p&&p&&br&&/p&&p&&b&从奴隶到将军,是怎么炼成的呢?二个字:读书。&/b&&/p&&p&&br&&/p&&p&幸好当时人才稀缺,屯田区也鼓励大家读书学习。邓艾因为特别用功,还拿到毕业证书——都尉学士,并当了个小官,叫“稻田守丛草吏”,据说他常常在稻田里指指点点,排兵布阵,因而得了个“邓疯子”的大名。&/p&&p&&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-311b183606bbf8436bfbeba1_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&640& data-rawheight=&360& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic3.zhimg.com/v2-311b183606bbf8436bfbeba1_r.jpg&&&/figure&&p&&br&&/p&&p&几十年后,取道七百里荒山奇袭成都,不知道灵感是否来源于当年的“稻田守丛草吏”。&/p&&p&&br&&/p&&p&而几个月后,因为政治风云突变而被冤杀之时,不知他有没有想过:不如当年种一辈子田?&/p&&p&&br&&/p&&p&电视剧《大军师司马懿之虎啸龙吟》勾起了我对这位传奇大将的记忆:&b&一战封神,位列古今六十四将的邓艾,下场为什么那么惨?&/b&&/p&&p&&br&&/p&&p&我特意找来了《三国志?邓艾传》,看完后,我想到了四个字:&b&胜败同源。&/b&&/p&&p&&br&&/p&&p&&b&所以成就你的因素,也可以轻易毁灭你。&/b&&/p&&p&&br&&/p&&p&&b&2/6、不是所有的疯子都能成功&/b&&/p&&p&&br&&/p&&p&一个看稻田的官,小就不说了,做的时间还特别长,一做就做了20年,直到40多岁,才被司马懿看中,调到了中央。&/p&&p&&br&&/p&&p&到了公元263年伐蜀时,邓艾已经是一位66岁的老将了。此前,在与蜀国名将姜维的对峙中,他已经向世人证明了自己的军事天赋。按理说,这一战后,就该解甲归田了。所以在这次兵分三路的伐蜀大军中,他的职责也只是牵制姜维陇西的主力。&/p&&p&&br&&/p&&p&可他并不满足,他认为,上苍把他从放牛娃的队伍里挑出来,应该还会有更重要的任务交给他。&/p&&p&&br&&/p&&p&他终于等到了一个绝好的机会。&/p&&p&&br&&/p&&p&邓艾发现,自己的老对手姜维在一连串的拉锯战后,竟然弃守阴平,退到了剑阁,已经把这一带地形背得滚瓜烂熟的邓艾,忽然产生了一个疯狂的想法。&/p&&p&&br&&/p&&p&那就是阴平,上苍给他邓艾的应许之地。邓艾想从阴平抄小路,绕开敌方主力,用奇兵冲击蜀国的腹地&/p&&p&&br&&/p&&p&&b&跟同事们说完这个计划,邓艾好像又见到了几十年前,大家看“邓疯子”的表情——不是老人变疯了,而是疯子变老了。&/b&&/p&&p&&br&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-b00da2de1defc1254cb0ec_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1080& data-rawheight=&608& class=&origin_image zh-lightbox-thumb& width=&1080& data-original=&https://pic1.zhimg.com/v2-b00da2de1defc1254cb0ec_r.jpg&&&/figure&&p&&br&&/p&&p&并不是所有的疯子都能成功,“邓疯子”的成功三分靠运气,七分靠努力,而这些努力,又和他的苦出身息息相关。&/p&&p&&br&&/p&&p&&b&首先,跟田地打了四十多年交道,邓艾对地形非常敏感,&/b&才能在七百里荒无人烟的大山上发现这条通过蜀地的捷径。&/p&&p&&br&&/p&&p&&b&其次,邓艾并不疯,&/b&一开始,他的计划是“奇兵冲其腹心”,等蜀主力回防,三路大军再合围,并没有疯到想要“孤军灭蜀”。&/p&&p&&br&&/p&&p&但当他发现蜀国比他想象的要弱得多时,他没有请求汇报,没有等待援军,毫不犹豫地改变战略,孤军深入,一举灭了这个多年来一直纠缠不休的敌人。&/p&&p&&br&&/p&&p&&b&最后,也是最重要的,他不怕苦。&/b&也许对手姜维早就知道了这条路,但他才不会相信,有人会从这里出发呢。&/p&&p&&br&&/p&&p&七百里,这可不是什么阳关大道,甚至根本没有路,要凿开山岭,架设桥梁栈道。很多地方,邓艾和士兵们都是用毛毡把自己包裹起来,从山上滚下去的。&/p&&p&&br&&/p&&p&这也不是几十个人的探险小分队,而是三万大军,要走近一个月,没有粮食供给,看见什么吃什么,没找着吃的就饿肚子。&/p&&p&&br&&/p&&p&如果不是苦出身,谁会想到这么打仗的呢?&/p&&p&&br&&/p&&p&&b&奇袭阴平,是“出身富贵”限制了所有人的想象力;但“奇袭阴平”之后,邓艾从人生的巅峰瞬间坠落,却是“出身贫穷”限制了他的想象力。&/b&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-bf0e2a82e33b_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&500& data-rawheight=&322& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&https://pic2.zhimg.com/v2-bf0e2a82e33b_r.jpg&&&/figure&&p&&br&&/p&&p&&b&3/6、只读兵书,不读史书的后果&/b&&/p&&p&&br&&/p&&p&在拿下成都后,邓艾宽抚了旧蜀的君臣,一个不杀,蜀人纷纷点赞。&/p&&p&&br&&/p&&p&前方的消息不断传到司马昭的耳朵里,他便以皇帝的名义下诏书,大大表扬了邓艾一番,并把他比喻成昔日名将韩信、白起、周亚夫。&/p&&p&&br&&/p&&p&那么多名将,为什么司马昭光提这三位呢?因为他们都是立大功后,被皇帝诛杀的。这是分明是在劝邓艾见好就收啊。&/p&&p&&br&&/p&&p&可惜邓艾只读兵书,不读史书,完全领会不到其中的威胁,反而上书说要留在这里养兵,还讲了一通下一步如何灭吴的计划。&/p&&p&&br&&/p&&p&&b&拥兵自重,不听号令,邓艾之死,完全在意料之中;但他束手就擒,死的如此容易,并且是被同僚在一场真正的叛乱之中借机诛杀,就在情理之外了。&/b&&/p&&p&&br&&/p&&p&职场上,很多没有背景的员工可以抓住机遇,靠自身的努力取得一定的成功,获得上司的认可,但再往上,往往暴露自己的弱点。&/p&&p&&br&&/p&&p&&b&4/6、入戏太深的“邓疯子”&/b&&/p&&p&&br&&/p&&p&这个邓艾不但是出身低,还有一个生理缺陷——口吃,成语“期期艾艾”里的“艾艾”,就是说的这位。&/p&&p&&br&&/p&&p&不过,口吃的名人多了,但成语字典只有两位。事实上,就算邓艾立了如此大功,很多将领也还是看不起他,因为他出身低贱,就是个“头拱地,嗷嗷叫”的“土八路”。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-fbf995e6b8c4bcdd1bd8e7_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&640& data-rawheight=&400& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic3.zhimg.com/v2-fbf995e6b8c4bcdd1bd8e7_r.jpg&&&/figure&&p&&br&&/p&&p&士族与庶族之争,并不仅仅是一种身份歧视,而是涉及至根本利益的冲突。&/p&&p&&br&&/p&&p&打仗一靠豪门大族出钱供粮,二靠寒门子弟冲锋陷阵,强敌当前,两股势力可以相安无事,但大敌一灭,和平时代,还要靠前者维持国家运行,而后者反而成了朝廷的心腹大患。&/p&&p&&br&&/p&&p&更何况,这个邓艾连庶族都谈不上,他唯一的靠山就是司马家族。&/p&&p&&br&&/p&&p&&b&他的价值在于抗蜀,蜀国灭了,他自然没有了价值。当司马昭为了和其他势力谈判,决定牺牲这颗棋子时,邓艾连反抗的力量都没有,一个小小“特派员”就能轻易杀了他。&/b&&/p&&p&&br&&/p&&p&出身寒门的邓艾自然不懂这个道理,打仗是他唯一能做的,这也导致了他亲手为自己关上了最后的一线生机。&/p&&p&&br&&/p&&p&职场同样如此,没有背景的员工,拉出去攻艰能拼命,拉回来看家不抱怨,努力是他们最大的优点,但时间长了,我们容易产生一种幻觉——好像我们的一切成就都是努力争取来的。&/p&&p&&br&&/p&&p&但我们忘了,一切成就都是公司资源配合的结果,而公司资源总是跟着战略大方向走,有时候要市场份额、有时候要利润增长、有时候要战略扩张、有时候要战略收缩。&/p&&p&&br&&/p&&p&&b&寒门子弟往往注重执行效率,而忘记了做事情应该有的节奏感,忽视了大环境、大战略的变化。&/b&&/p&&p&&br&&/p&&p&三国的仗不是想打就打的,战争是解决内部矛盾的方法之一。司马昭伐蜀并不是为了统一,而是缓和内部司马氏与曹氏的冲突,是因为他发现自己的势力还不足以取代曹魏时的缓兵之计,没想到邓艾真的灭了蜀国。&/p&&p&&br&&/p&&p&&b&胜仗既然已经打了,那也好,接下去就是各方势力谈判瓜分胜利果实了,也就是说,没他邓艾什么事儿了。如果就此功成身退,他也就抓住了自己的一线生机。可“邓疯子”却入戏太深,在台上不肯下来了。&/b&&/p&&p&&br&&/p&&p&好吧,既然邓艾有失控的迹象,不如以平叛为借口,乘机除掉前敌主帅钟会这个真正威胁司马家族的豪门之后。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-44c2d2b4cb4ab087d6cae_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1080& data-rawheight=&608& class=&origin_image zh-lightbox-thumb& width=&1080& data-original=&https://pic4.zhimg.com/v2-44c2d2b4cb4ab087d6cae_r.jpg&&&/figure&&p&&br&&/p&&p&下面我们来开个脑洞,如果你是邓艾,灭蜀之后如何保护自己呢?&/p&&p&&br&&/p&&p&&b&5/6、一件早该布局的大事&/b&&/p&&p&&br&&/p&&p&职场上有一个彼德定理:&b&每一个人最终都会升任到他无法胜任的位置。&/b&&/p&&p&&br&&/p&&p&为什么这么说呢?因为上司评判你是否符合晋升的标准,是你过去的表现,而不是你能否适应未来的职位。所以,每一次晋升,如果你不能找到自己新的定位,这里就是你职场生涯的坟墓。&/p&&p&&br&&/p&&p&&b&邓艾最大的局限性,在于他成功之前,没有提前考虑自己未来的定位。&/b&&/p&&p&&br&&/p&&p&灭蜀是魏晋内部矛盾外部化,邓艾幸运的找到了自己的定位,但蜀国一灭,魏晋的内部矛盾又上升为主要矛盾。&/p&&p&&br&&/p&&p&在这种形势下,邓艾想要生存,要么激流勇退,要么更进一步,扶植自己的势力,把手握的重兵变成自己的“家兵”,但这些将士的家属都在魏国,让他们造反?比走700里蜀道还难。&/p&&p&&br&&/p&&p&晚了,这应该是一件很久之前就该布局的事,到了现在,就算邓艾想到,也晚了。这也暴露了寒门子弟的与生俱来的缺点——没有大局观。&/p&&p&&br&&/p&&p&如果邓艾是士族豪门,从小看惯这些权力斗争,他自然早就有所准备,建功立业和建立自己的势力,两手都要硬。&/p&&p&&br&&/p&&p&&b&职场上的“邓艾”们,想要把成功进行到底,还得补充一下“士族豪门子弟”从小就拥有的这种能力:大局观。&/b&&/p&&p&&br&&/p&&p&有人要说了,在职场上,一无背景二无资源的我们,努力往上爬已经是筋疲力尽了,还要想着未来的事,这可能吗?不在其位,不谋其事,是因为想“谋”也不知道怎么“谋”啊?&/p&&p&&br&&/p&&p&好吧,文章看到最后,我还是给读者“如何培养大局观”的三个锦囊吧。&/p&&p&&br&&/p&&p&&b&6/6、如何培养大局观&/b&&/p&&p&&br&&/p&&p&&b&第一个锦囊是看史书。&/b&太阳底下无新事,人性的进化是很慢的,古人遇到的事,变一种形式,你也会遇到,看多了,自然有感觉。&/p&&p&&br&&/p&&p&&b&第二个锦囊是懂点心理学、经济学知识。&/b&人是社会动物,有欲望,有理智;人也是经济动物,凡事会计算利益得失。人永远在利益与代价之间,在理性与感性之间,决定自己的行动。&/p&&p&&br&&/p&&p&&b&至于第三个嘛,就是玩游戏。&/b&&/p&&p&&br&&/p&&p&&b&这款《率土之滨》也是我最近在玩的一款三国策略手游。它的特点之一是在争夺土地资源以及与其他势力进行斗争的时候,内核却是政治,还原了现实世界的政治经济运行规律。&/b&&/p&&p&&br&&/p&&p&说实话,这篇文章完全是受了电视剧《大军师司马懿之虎啸龙吟》中的一段中插视频的启发。&/p&&a class=&video-box& href=&https://link.zhihu.com/?target=https%3A//www.zhihu.com/video/001024& target=&_blank& data-video-id=&& data-video-playable=&true& data-name=&& data-poster=&https://pic2.zhimg.com/80/v2-b6bd45d53d74a35277c5_b.jpg& data-lens-id=&001024&&
&img class=&thumbnail& src=&https://pic2.zhimg.com/80/v2-b6bd45d53d74a35277c5_b.jpg&&&span class=&content&&
&span class=&title&&&span class=&z-ico-extern-gray&&&/span&&span class=&z-ico-extern-blue&&&/span&&/span&
&span class=&url&&&span class=&z-ico-video&&&/span&https://www.zhihu.com/video/001024&/span&
&p&(邓艾“偷渡阴平,直取成都”的灵感居然是玩游戏来滴!?)&/p&&p&&br&&/p&&p&&br&&/p&&p&不夸张,推荐我玩这款游戏的朋友,就经常与同盟中的其他领导层针对游戏局势进行“会晤协商”。&/p&&p&&br&&/p&&p&&br&&/p&&p&&b&这么说吧,小到一次主力的对撞,大到国家间的尔虞我诈,在玩游戏的时候,就能预先体验未来当CEO时“合纵连横”时的真实感觉。&/b&&/p&
位列古今六十四将的邓艾,下场为什么那么惨?培养自己的大局观的三个锦囊…… 1/6、从奴隶到将军 小时候看《三国演义》,留下了一个印象:如果生在一个充满变化、注重人才的年代,寒门子弟靠自身努力,还是可以建立一番功业的。 长大后才发现,三国里真正的…
&blockquote&本回答来自于「瓦力」背后的算法工程师 辛秉哲、刘兆来 的分享&/blockquote&&p&昨天算法机器人瓦力给大家写了&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&好长一封信&/a&,提前预告了下正在秘密进行的项目。瓦力算法除了作用于社区内的不友善、答非所问以及低质提问等内容外,也正在优化识别阴阳怪气类内容的模型,希望可以更好地维护知乎的讨论氛围。&/p&&p&但是,算法在识别阴阳怪气需要充分考虑上下文语境、情感因素等因此瓦力希望可以邀请到更多的知友一起参与判断哪些是阴阳怪气,哪些是语气正常,继而了解每位用户的情感阈值,提升自己的覆盖范围。欢迎各位知友参与瓦力测试,瓦力会根据大家的选择去进行学习:&/p&&a href=&//link.zhihu.com/?target=http%3A//cdn.betwo.net/wx/zhihuwali/index.html& data-draft-node=&block& data-draft-type=&link-card& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&瓦力实验室&/a&&p&本篇回答是从机器学习的角度分析,瓦力算法在识别阴阳怪气类内容的应用场景。一般来讲,机器学习算法按照学习的方式可以分为监督学习,无监督学习和半监督学习;会根据不同的应用场景或者数据质量来选择相对应的算法,也可以将这几种方式结合起来应用。例如,识别阴阳怪气类内容这个问题,应该属于监督学习的问题,也就是利用已有样本和样本标签训练出分类模型。我们筛查了评论区被踩过最多次的评论,发现如「XXX 还好吧,就是关注者有点 ……」、「你们是生活在乌托邦的世界多久了?」、「不是很懂题主的脑回路」等评论,不仅伤害作者创作热情,还可能引发评论区更多的不友善争论,我们都希望可以通过算法来改善或解决。&/p&&p&&b&但算法的解决过程中遇到一些难点:训练数据少,过拟合严重等 。&/b&阴阳怪气类的评论,我们初始积累的数据比较少,主要由评论以不友善为由举报审核后被忽略的数据组成,并且阴阳怪气出生率低,人工标注获取数据费时费力收益小,基于此我们采用 &u&&a href=&//link.zhihu.com/?target=https%3A//www.cnblogs.com/maybe2030/p/5515042.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Active Learning&/a&&/u& [1,2] 来扩充训练集,active learning 是指学习算法可以主动地提出一些标注请求,将一些经过筛选的数据提交给专家进行标注,从而加速训练过程,训练效果可参考图 1。我们从全量数据中随机抽取一部分评论及对应的评论上文,利用初始模型进行预测,对模型判断置信度比较低的数据进行人工标注,模型在验证集有效提升的同时,减少了近 80% 的人工标注量(标注数据占抽取数据的比例为 20%);&/p&&figure&&img src=&https://pic2.zhimg.com/50/v2-d7a862698f_b.jpg& data-size=&normal& data-rawwidth=&860& data-rawheight=&331& class=&origin_image zh-lightbox-thumb& width=&860& data-original=&https://pic2.zhimg.com/50/v2-d7a862698f_r.jpg&&&figcaption&图 1 ActiveLearning VS normal results[4]&/figcaption&&/figure&&p&以下是阴阳怪气评论识别的解决方案介绍:&/p&&ul&&li&首先,我们进行数据增强,以提升模型的泛化能力;&/li&&/ul&&p&数据增强是为了提升模型在大量数据上的泛化能力。在这方面,我们进行了两种尝试:提取阴阳怪气关键词做替换,比如同音异字变换,洗地党→洗涤党,真的很恶心 → 震得很恶心;此外,我们也利用提取出的阴阳怪气关键样本,随机构造评论上文与评论。&/p&&ul&&li&其次,我们提取相关数据特征,利用卷积网络以及人工特征等来获得更多更详细的特征;&/li&&/ul&&p&特征构建层方面,我们从文本特征、数值特征、阴阳怪气词以及表情词着手。文本特征即文本加入阴阳怪气关键词进行分词后,保留标点,表情等;数值特征即句子长度,句号数量,感叹号数据等;阴阳怪气词即提取社区内被踩过很多次的表示阴阳怪气关键词;表情特征:划分正负样本表情。&/p&&ul&&li&最后,将提取出的特征输入分类器。&/li&&/ul&&p&特征学习层方面,我们主要考虑了文本特征,词向量方面,最近 ELMO&a href=&//link.zhihu.com/?target=https%3A//arxiv.org/abs/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&[3]&/a& 词向量在多个 NLP 任务能取得提升,我们利用知乎全量数据训练 ELMO 词向量,ELMO 词向量利用双向 lstm 训练获得,可以捕获上下文位置信息以及更深层的语义。 我们将评论上文与评论经过 embeding 层后分成两个金字塔型 CNN 网络,目的是训练各自独立的参数,我们采取 CNN 网络是因为 CNN 卷积可以捕获字词的位置关系也可以比较有效的提取特征。&/p&&figure&&img src=&https://pic4.zhimg.com/50/v2-745cf018df7eca3ebdf099fdac1a6669_b.jpg& data-size=&normal& data-rawwidth=&3500& data-rawheight=&1969& class=&origin_image zh-lightbox-thumb& width=&3500& data-original=&https://pic4.zhimg.com/50/v2-745cf018df7eca3ebdf099fdac1a6669_r.jpg&&&figcaption&图 2 阴阳怪气识别方案&/figcaption&&/figure&&figure&&img src=&https://pic4.zhimg.com/50/v2-ad6adec080a3e682b975f_b.jpg& data-size=&normal& data-rawwidth=&740& data-rawheight=&338& class=&origin_image zh-lightbox-thumb& width=&740& data-original=&https://pic4.zhimg.com/50/v2-ad6adec080a3e682b975f_r.jpg&&&figcaption&图 3 cnnblock 结构&/figcaption&&/figure&&figure&&img src=&https://pic2.zhimg.com/50/v2-2ed30da7a31d75fe0a6dcc83dbd40d59_b.jpg& data-size=&normal& data-rawwidth=&725& data-rawheight=&329& class=&origin_image zh-lightbox-thumb& width=&725& data-original=&https://pic2.zhimg.com/50/v2-2ed30da7a31d75fe0a6dcc83dbd40d59_r.jpg&&&figcaption&图 4 elmo 词向量&/figcaption&&/figure&&p&除上述特征外,我们也充分考虑了其他特征。其他特征主要为特征归一化后与评论的卷积输出进行拼接,最后与评论上文的卷积输出进行 dot-attention 目的是获取评论上文与评论不同的权重。最后,我们将特征数据全连接层以 softmax 方式进行了分类。&/p&&p&总得来说,不同的应用场景和不同的数据下各个算法的表现也不一定一致。例如,在&b& NLP 任务&/b&中可能训练数据对效果的影响比较大,我们需要花很多时间在数据的处理上,而在普通分类问题或者回归问题可能需要花更多的时候来分析数据构造特征。另外,选择算法时也需要考虑算法效率和硬件条件。因此,我们还在不断优化瓦力算法的识别能力,提高模型的泛化能力,并不断迭代更新模型,跟上学术前沿的同时适应文字世界的变化潮流。&/p&&p&&b&以上是我们对算法在识别阴阳怪气类内容的思考,希望可以与各位知友探讨交流。最后,我们也欢迎各位算法领域用户加入知乎,与我们一起交流探讨。&/b&&/p&&p&[1] &u&&a href=&//link.zhihu.com/?target=https%3A//www.cnblogs.com/maybe2030/p/5515042.html& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&cnblogs.com/maybe2030/p&/span&&span class=&invisible&&/5515042.html&/span&&span class=&ellipsis&&&/span&&/a&&/u& &/p&&p&[2] &u&&a href=&//link.zhihu.com/?target=https%3A//en.wikipedia.org/wiki/Active_learning_%28machine_learning%29& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&en.wikipedia.org/wiki/A&/span&&span class=&invisible&&ctive_learning_(machine_learning)&/span&&span class=&ellipsis&&&/span&&/a&&/u&&/p&&p&[3] Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations[J]. arXiv preprint arXiv:, 2018.&/p&&p&[4] &a href=&//link.zhihu.com/?target=https%3A//becominghuman.ai/accelerate-machine-learning-with-active-learning-96cea4b72fdb& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&becominghuman.ai/accele&/span&&span class=&invisible&&rate-machine-learning-with-active-learning-96cea4b72fdb&/span&&span class=&ellipsis&&&/span&&/a& &/p&
本回答来自于「瓦力」背后的算法工程师 辛秉哲、刘兆来 的分享昨天算法机器人瓦力给大家写了,提前预告了下正在秘密进行的项目。瓦力算法除了作用于社区内的不友善、答非所问以及低质提问等内容外,也正在优化识别阴阳怪气类内容的模型,希望可以…
&p&作者:sosilent&/p&&p&链接:&a href=&http://link.zhihu.com/?target=https%3A//www.nowcoder.com/discuss/75360%3Ftype%3D2%26order%3D3%26pos%3D34%26page%3D1& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&https://www.nowcoder.com/discuss/75360&/a&&/p&&p&来源:牛客网&/p&&p&&br&&/p&&p&由于工作地点选在北京,HR沟通后要求去现场进行面试。 &/p&&p&&br&&/p&&h2&&b&一面(现场面)&/b& &/h2&&p&&br&&/p&&p&&b&由于现场面大部分原理都需要手写解释。&/b& &/p&&p&&br&&/p&&p& 1、监督学习非监督学习啥区别,word2vec 属于啥类型 &/p&&p& 2、xgb,gbdt啥区别 &/p&&p& 3、l1,l2正则原理、区别 &/p&&p& 4、xgb中l1正则怎么用的 &/p&&p& 5、python 中 list 底层怎么实现 &/p&&p& 6、list dict有什么区别 &/p&&p& 7、手写对dict排序 &/p&&p& 8、介绍项目,从项目中又问了一些 &/p&&p&&br&&/p&&h2&&b&二面(现场面)&/b& &/h2&&p&&br&&/p&&p&&b&二面大哥是临时叫来的,没看过我的简历,就对简历中的项目进行探讨,讨论了一下实现的方式。&/b& &/p&&p&&br&&/p&&h2&&b&三面(现场面)&/b& &/h2&&p&&br&&/p&&p& 1、自我介绍 &/p&&p& 2、介绍项目 &/p&&p& 3、集成学习介绍(boosting bagging stacking原理) &/p&&p& 4、stacking blending区别 &/p&&p& 5、分析为什么使用xgb(提示,从特征维度,样本维度等进行比较) &/p&&p& 6、过拟合的判断方法 &/p&&p& 7、过拟合如何解决 &/p&&p& 8、概率题 X是一个以p的概率产生1,1-p的概率产生0的随机变量,利用X等概率生成1-n的数 &/p&&p&9、手写代码 两排序链表合并 &/p&&p&&br&&/p&&h2&&b&四面(现场面)&/b& &/h2&&p&&br&&/p&&p&1、自我介绍 &/p&&p&2、介绍项目 &/p&&p&3、手写代码 数组中第k大的数 &/p&&p&4、构造堆的时间复杂度 &/p&&p&&br&&/p&&h2&&b&五面 交叉面(视频面)&/b& &/h2&&p&&br&&/p&&p&1、自我介绍 &/p&&p&2、平时成绩 &/p&&p&3、python 中 key-value的数据结构 &/p&&p&4、dict底层如何实现 &/p&&p&5、如何解决哈希冲突 &/p&&p&6、非监督学习举例 &/p&&p&7、解释k-means原理 &/p&&p&8、距离的计算方法 &/p&&p&9、监督学习模型如何选取 &/p&&p&10、场景题 知道所有信息,为用户推荐饭馆 &/p&&p&11、算法题 两个300G的大文件,求两个文件的交集 &/p&&p&&br&&/p&&h2&&b&六面 HR面(电话面)&/b&&/h2&&p&1、自我介绍 &/p&&p&2、拿了哪些offer,为什么选择阿里 &/p&&p&3、有哪些优缺点 &/p&&p&3、性格如何,性格上有什么缺点 &/p&&p& 4、学习有什么收获,面试有什么收获 &/p&&p& 5、薪资有什么要求 &/p&&p&&br&&/p&&h2&&b&七面 总监面(现场面)&/b& &/h2&&p&&br&&/p&&p&&b&总监面史上最难,全程懵逼,每个问题问到不会为止,面试时间大约持续2小时。&/b& &/p&&p&1、大概介绍项目 &/p&&p& 2、详细介绍论文,我的论文方向是交通,就二面面试官稍微讨论了一下,总监大佬让逐一介绍创新点,每一个点讲到逻辑清楚为止 &/p&&p& 3、介绍比赛,问题都是从比赛,项目展开 &/p&&p& 4、详细分析xgb原理,怎么选分裂点,为什么用二阶泰勒展开,xgb里面正则项怎么表示。L1,L2正则区别(我用概率跟最优化理论分析完,总监大佬又让我从梯度下降解释为什么L1稀疏), &/p&&p& L1正则如何求梯度。xgb,gbdt区别,gbdt为什么用梯度,用梯度什么好处。最后问了问团队怎么分工。 &/p&&p& 5、算法题 数组中和最大子序列&/p&&p&问了好多细节,大概就记得这些。 &/p&&p&希望大家都能找到心仪的工作~~&/p&&p&&br&&/p&&p&&b&更多笔经面经:&/b&&a href=&http://link.zhihu.com/?target=https%3A//www.nowcoder.com/discuss%3Ftype%3D2%26order%3D0& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&nowcoder.com/discuss?&/span&&span class=&invisible&&type=2&order=0&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&&b&跟作者交流:&/b&&a href=&http://link.zhihu.com/?target=https%3A//www.nowcoder.com/discuss/75360& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&nowcoder.com/discuss/75&/span&&span class=&invisible&&360&/span&&span class=&ellipsis&&&/span&&/a&&/p&
作者:sosilent链接:来源:牛客网 由于工作地点选在北京,HR沟通后要求去现场进行面试。 一面(现场面) 由于现场面大部分原理都需要手写解释。 1、监督学习非监督学习啥区别,word2vec 属于啥类型 2、xgb,gbdt啥区…
&figure&&img src=&https://pic2.zhimg.com/v2-e8abacba2e0c05fb6334ec6_b.jpg& data-rawwidth=&1920& data-rawheight=&1080& class=&origin_image zh-lightbox-thumb& width=&1920& data-original=&https://pic2.zhimg.com/v2-e8abacba2e0c05fb6334ec6_r.jpg&&&/figure&&blockquote&安妮 栗子 发自 泽浩寺&br&量子位 出品 | 公众号 QbitAI&/blockquote&&figure&&img src=&https://pic1.zhimg.com/v2-f796da6bc5204cfa02098_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1032& data-rawheight=&370& class=&origin_image zh-lightbox-thumb& width=&1032& data-original=&https://pic1.zhimg.com/v2-f796da6bc5204cfa02098_r.jpg&&&/figure&&p&可能每个程序猿,都想过加入Google。&/p&&p&然而想要“应试”成功,考验的不仅仅是开发人员的编程技术,还能侧面考验着参赛者的渠道来源是否广泛、背景力量是否强大、脑洞回路是否清奇……&/p&&p&不过,梦是要做的,简历是要投的,说不准面试就来了呢?所以,我们需要为万一砸到头顶的面试,做好一万的准备。&/p&&p&前有万千过桥的应聘大军&b&发回攻略&/b&,后有民间编程大神发现&b&隐藏关卡&/b&……是时候来总结一份Google应聘指南了。&/p&&p&P.S. 这份攻略也不仅仅适用于Google(中途落榜的励志哥还被亚马逊挖走了呢~)&/p&&h2&&b&面前必毒(20道·真·题)&/b&&/h2&&figure&&img src=&https://pic4.zhimg.com/v2-dac457ad950c95a8a1e87acb167a5901_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&224& data-rawheight=&221& data-thumbnail=&https://pic2.zhimg.com/v2-dac457ad950c95a8a1e87acb167a5901_b.jpg& class=&content_image& width=&224&&&/figure&&p&Google的技术面试流程就是各家的标配而已,先远程后现场。&/p&&p&面试以强度闻名,可能看看问题就想回家了。这些题目全部由Glassdoor收集统计。不过,顺便看下参考答案也是好的。&/p&&p&&b&1、求导1/x。&/b&&/p&&blockquote&答:-1/x2&/blockquote&&figure&&img src=&https://pic3.zhimg.com/v2-9a2af7c483f_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1080& data-rawheight=&185& class=&origin_image zh-lightbox-thumb& width=&1080& data-original=&https://pic3.zhimg.com/v2-9a2af7c483f_r.jpg&&&/figure&&blockquote&用Python是这样。&/blockquote&&figure&&img src=&https://pic4.zhimg.com/v2-611b8d6cadf36d889cc5e59b9e8eb0bf_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1080& data-rawheight=&433& class=&origin_image zh-lightbox-thumb& width=&1080& data-original=&https://pic4.zhimg.com/v2-611b8d6cadf36d889cc5e59b9e8eb0bf_r.jpg&&&/figure&&p&&b&2、画出log (x+10)曲线。&/b&&/p&&blockquote&答:如图。只要把logx的图像左移10格。&/blockquote&&figure&&img src=&https://pic1.zhimg.com/v2-67aa6e7ce45dcbd7e065d1c_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1080& data-rawheight=&763& class=&origin_image zh-lightbox-thumb& width=&1080& data-original=&https://pic1.zhimg.com/v2-67aa6e7ce45dcbd7e065d1c_r.jpg&&&/figure&&blockquote&用Python是这样。&/blockquote&&figure&&img src=&https://pic1.zhimg.com/v2-365c91bb728b5eb6b2d4_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1080& data-rawheight=&410& class=&origin_image zh-lightbox-thumb& width=&1080& data-original=&https://pic1.zhimg.com/v2-365c91bb728b5eb6b2d4_r.jpg&&&/figure&&p&&b&3、怎样设计一次客户满意度调查?&/b&&/p&&blockquote&答:第三题就这么抽象了。不知从何说起的我决定指引各位,可以在搜索引擎里查询一下:“客户满意度和客户忠诚度的计算标准”。&/blockquote&&p&&b&4、一枚硬币抛10次,得到8正2反。试析抛硬币是否公平?p值是多少?&/b&&/p&&p&&b&5、接上题。10枚硬币,每一枚抛10次,结果会如何?为了抛硬币更公平,应该怎么改进?&/b&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-d22cd771bfa30d1d2fbd7e77_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&498& data-rawheight=&481& data-thumbnail=&https://pic4.zhimg.com/v2-d22cd771bfa30d1d2fbd7e77_b.jpg& class=&origin_image zh-lightbox-thumb& width=&498& data-original=&https://pic4.zhimg.com/v2-d22cd771bfa30d1d2fbd7e77_r.jpg&&&/figure&&blockquote&答:小数定律或许可以帮到你。&br&附一个参考资料:&a href=&http://link.zhihu.com/?target=https%3A//medium.com/%40lorenz.rumberger/i-think-a-more-advanced-answer-for-the-coin-toss-game-would-use-the-bayesian-method-71& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&medium.com/@lorenz.rumb&/span&&span class=&invisible&&erger/i-think-a-more-advanced-answer-for-the-coin-toss-game-would-use-the-bayesian-method-71&/span&&span class=&ellipsis&&&/span&&/a&&/blockquote&&p&&b&6、解释一个非正态分布,以及如何应用。&/b&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-7f912f1ef9fc5b87d0ca84_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&500& data-rawheight=&319& data-thumbnail=&https://pic1.zhimg.com/v2-7f912f1ef9fc5b87d0ca84_b.jpg& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&https://pic1.zhimg.com/v2-7f912f1ef9fc5b87d0ca84_r.jpg&&&/figure&&blockquote&答:不知道面试者遇到是怎样的分布。不过,上个月MIT发表了用妖娆的伽玛分布,帮助自动驾驶系统在浓雾里保持如炬目光的算法。&br&详情传送门:&a href=&http://link.zhihu.com/?target=https%3A//mp.weixin.qq.com/s%3F__biz%3DMzIzNjc1NzUzMw%3D%3D%26mid%3D%26idx%3D4%26sn%3Ddb0fcef1bc290b84ac0c185ade54cdf9%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&点这里&/a&&/blockquote&&p&7、为什么要用特征选择?如果两个预测因子高度相关,系数对逻辑回归有怎样的影响?系数的置信区间是多少?&/p&&figure&&img src=&https://pic1.zhimg.com/v2-ccc4fd71efb5a6eedded_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&332& data-rawheight=&236& data-thumbnail=&https://pic2.zhimg.com/v2-ccc4fd71efb5a6eedded_b.jpg& class=&content_image& width=&332&&&/figure&&blockquote&答:需要处理高维数据的时候,很多模型都吃不消。特征选择可以让我们在给数据降维的同时,不损失太多信息。&br&参考资料传送门:&a href=&http://link.zhihu.com/?target=https%3A//towardsdatascience.com/why-how-and-when-to-apply-feature-selection-e9c69adfabf2& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&towardsdatascience.com/&/span&&span class=&invisible&&why-how-and-when-to-apply-feature-selection-e9c69adfabf2&/span&&span class=&ellipsis&&&/span&&/a&&/blockquote&&p&&b&8、K-mean与高斯混合模型:K-means算法和EM算法的差别在哪里?&/b&&/p&&blockquote&答:CSDN博主JpHu说,K-Means算法对数据点的聚类进行了“硬分配”,即每个数据点只属于唯一的聚类;而GMM的EM解法则基于后验概率分布,对数据点进行“软分配”,即每个单独的高斯模型对数据聚类都有贡献,不过贡献值有大有小。&br&传送门:&a href=&http://link.zhihu.com/?target=https%3A//blog.csdn.net/tingyue_/article/details/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&blog.csdn.net/tingyue_/&/span&&span class=&invisible&&article/details/&/span&&span class=&ellipsis&&&/span&&/a&&/blockquote&&p&&b&9、使用高斯混合模型时,怎样判断它适用与否?(正态分布)&/b&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-ef2f37fddec0cc_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&607& data-rawheight=&402& class=&origin_image zh-lightbox-thumb& width=&607& data-original=&https://pic1.zhimg.com/v2-ef2f37fddec0cc_r.jpg&&&/figure&&blockquote&答:依然,请前往以下页面。&br&详情传送门:&a href=&http://link.zhihu.com/?target=https%3A//stats.stackexchange.com/questions/260116/when-to-use-gaussian-mixture-model& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&stats.stackexchange.com&/span&&span class=&invisible&&/questions/260116/when-to-use-gaussian-mixture-model&/span&&span class=&ellipsis&&&/span&&/a&&/blockquote&&p&&b&10、聚类时标签已知,怎样评估模型的表现?&/b&&/p&&blockquote&答: CSDN博主howhigh说,如果有了类别标签,那么聚类结果也可以像分类那样计算准确率和召回率。但是不应该将分类标签作为聚类结果的评价指标,除非你有相关的先验知识或某种假设,知道这种分类类内差距更小——&br&详情传送门:&a href=&http://link.zhihu.com/?target=https%3A//blog.csdn.net/howhigh/article/details/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&blog.csdn.net/howhigh/a&/span&&span class=&invisible&&rticle/details/&/span&&span class=&ellipsis&&&/span&&/a&&/blockquote&&p&&b&11、为什么不用逻辑回归,而要用GBM?&/b&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-0bda02ed7c3b90e67f51c058cd0f9d5b_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1024& data-rawheight=&512& class=&origin_image zh-lightbox-thumb& width=&1024& data-original=&https://pic4.zhimg.com/v2-0bda02ed7c3b90e67f51c058cd0f9d5b_r.jpg&&&/figure&&blockquote&答:逻辑回归 (LR) 是二元线性分类器。决策边界是线性的,通常适于处理线性问题。如果要捕捉非线性关系,就需要复杂的特征工程,来增强模型的表达能力。&br&&br&GBDT是由多棵决策树组成,最终结果是所有树的结论累加而成。能够发现许多有区分性的特征,更细地划分特征空间。可以处理线性和非线性数据。&br&&br&参考答案传送门:&br&&a href=&https://www.zhihu.com/question//answer/& class=&internal&&&span class=&invisible&&https://www.&/span&&span class=&visible&&zhihu.com/question/5462&/span&&span class=&invisible&&6685/answer/&/span&&span class=&ellipsis&&&/span&&/a&&/blockquote&&p&&b&12、每年应聘Google的人有多少?&/b&&/p&&blockquote&答:两百万。大多数人可能都只是顺便投一下,看看会不会中奖。&/blockquote&&figure&&img src=&https://pic2.zhimg.com/v2-0cfab53b9b1dd2745b78fcc946b4d951_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1000& data-rawheight=&269& class=&origin_image zh-lightbox-thumb& width=&1000& data-original=&https://pic2.zhimg.com/v2-0cfab53b9b1dd2745b78fcc946b4d951_r.jpg&&&/figure&&p&当然,技术题是出不完的,也是答不完的——以下统一不给答案了,请进行自我测试,并注意考试时间。&/p&&p&&b&13、你给一个Google APP做了些修改。怎样测试某项指标是否有增长&/b&&/p&&p&&b&14、描述数据分析的流程。&/b&&/p&&p&&b&15、高斯混合模型 (GMM) 中,推导方程。&/b&&/p&&p&&b&16、怎样衡量用户对视频的喜爱程度?&/b&&/p&&p&&b&17、模拟一个二元正态分布。&/b&&/p&&p&&b&18、求一个分布的方差。&/b&&/p&&p&&b&19、怎样建立中位数的Estimator?&/b&&/p&&p&&b&20、如果回归模型中的两个系数估计,分别是统计显著的,把两个放在一起测试,会不会同样显著?&/b&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-5ade06e697fe70ff8eca3d32bc9c3421_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&640& data-rawheight=&640& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic2.zhimg.com/v2-5ade06e697fe70ff8eca3d32bc9c3421_r.jpg&&&/figure&&h2&&b&不只是技术&/b&&/h2&&p&除了这些深刻的技术问题,Google历年的面试中,总有一些直击灵魂的神秘考题。BI也统计了一些,例如:
&/p&&ul&&li&一辆校车可以放进多少个高尔夫球?&/li&&li&擦一遍西雅图所有的窗户需要多少钱?&/li&&li&井盖为什么是圆的?&/li&&/ul&&p&再来个长的:&/p&&blockquote&你只有两个生鸡蛋,是可以无比坚固也可以无比脆弱的鸡蛋。在一百层的高楼里,在两个鸡蛋都阵亡之前,怎么才能知道它们最高能从几楼摔下来不碎?需要多少步?&/blockquote&&p&鸡蛋表示:&/p&&figure&&img src=&https://pic2.zhimg.com/v2-38454b59cddc4ce1b178c1a07a67b2ed_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&300& data-rawheight=&188& class=&content_image& width=&300&&&/figure&&p&&br&&/p&&p&很好奇,脑洞考题是怎样打分的。友情提示:上述几道题,有些是可以抖机灵的……&/p&&p&如果你想知道答案和更多类似题,可以在量子位公众号(ID:QbitAI)对话界面,回复:“&b&神秘题&/b&”三个字。&/p&&h2&&b&史上最正统Google面试宝典&/b&&/h2&&p&真题谈完了。虽然面试准备是个老生常谈的话题,但下面这份宝典无论如何你都要看看。&/p&&p&论“血统”,这份宝典最为正宗,因为它是Google招聘官网上专门为“Future Googler”准备的。一起看看招聘方亲自对面试者提出了哪些建议——&/p&&figure&&img src=&https://pic2.zhimg.com/v2-5c44f2f923bdcc2ff465bfa1_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&431& data-rawheight=&277& class=&origin_image zh-lightbox-thumb& width=&431& data-original=&https://pic2.zhimg.com/v2-5c44f2f923bdcc2ff465bfa1_r.jpg&&&/figure&&p&&b&预测面试题&/b&:面试前,你基本可以预测出90%的问题了。“为什么想申请这份工作”“你曾经解决过什么问题”等问题基本在面试中必现,写20个出来先提前准备着有益无害。&/p&&p&&b&计划&/b&:写出极可能出现的问题后,针对列出你的清单上的每一个问题,写下你的答案。这将帮助你加深对这些问题的印象,是面试时能对答如流的利器。&/p&&p&&b&Plan B&C&/b&:针对上面这些问题,Google招聘人员建议你最好能准备3个答案。这些备用答案能在第一位面试官不喜欢你的故事时,帮你征服下一位面试官。&/p&&p&&b&解释&/b&:面试官想要了解你的想法,所以在面试过程中需要展示你的思维过程和最后的解决方案。这个环节不仅是在评估你的技术能力,还在评估你解决问题的灵活性。&/p&&p&&b&讲故事&/b&:Google面试官希望以会“讲故事”。有一个很有意思的面试小技巧,就是每个问题都应该用一个故事来回答。比如“你怎样领导……”的问题最好就举个例子讲个故事吧~&/p&&figure&&img src=&https://pic4.zhimg.com/v2-3eec85bec31_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&480& data-rawheight=&270& data-thumbnail=&https://pic2.zhimg.com/v2-3eec85bec31_b.jpg& class=&origin_image zh-lightbox-thumb& width=&480& data-original=&https://pic2.zhimg.com/v2-3eec85bec31_r.jpg&&&/figure&&p&&b&探讨&/b&:在面试过程中你可能会不自觉进入一些问题“圈套”,这是面试官想深入了解当你遇到技术难题中你看重哪些信息,希望看到你如何处理这个问题以及你解决问题的主要方法,这时一定要就你的思维过程进行讨论。&/p&&p&&b&改进&/b&:思考如何改进你现在的解决方案,让面试官知道你在做什么,为什么要这样做。&/p&&p&&b&练习&/b&:最后应聘者要时刻谨记熟能生巧。模拟面试环节,自信说出你的答案,直到你能清晰而简明地讲述每一个故事。&/p&&p&看来,准备Google的面试是个时间活~除了技术能力需要过硬以外,单单面试时这20×3个问题的准备也得准备不少时间呢。&/p&&p&对了,已经应聘成功的Google工程师们还给你提了一些技术类问题的“备考”建议,听听老人言,助你面试一臂之力。&/p&&a href=&http://link.zhihu.com/?target=https%3A//v.qq.com/x/page/j0506uecfxc.html& data-draft-node=&block& data-draft-type=&link-card& data-image=&https://pic3.zhimg.com/v2-a772ac43dda_180x120.jpg& data-image-width=&320& data-image-height=&180& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&谷歌工程师面试_腾讯视频&/a&&h2&&b&对,有隐藏关卡!&/b&&/h2&&p&应聘Google的方法只有内推、校招和发简历社招这三种?Naive,小看Google工程师的脑洞了,据多位大神在博客上透露,Google的应聘来源还有&b&秘密渠道&/b&。&/p&&p&如果Google捕捉到你在搜索某个特定的编程术语,可能就会有人邀请你申请这个职位。就有人能解锁这种隐藏关卡~&/p&&p&小哥Max Rosett曾遇到过一个有趣的故事。在用Google搜索“Python lambda函数列表解析”时,搜索界面分裂并向后折叠,一个方框弹出来写着“你在使用我们的语音”,还邀请他去挑战一下。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-3cf6f864a20fb5d2c6a4_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&720& data-rawheight=&410& class=&origin_image zh-lightbox-thumb& width=&720& data-original=&https://pic1.zhimg.com/v2-3cf6f864a20fb5d2c6a4_r.jpg&&&/figure&&p&点击“挑战”后,页面跳转到一个叫“foo.bar”的页面,还会出现一道限时挑战题。连续攻破六道题后,foo.bar邀请这位挑战者提交个人信息。后来,就有招聘人员来要简历了。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-28e89de6d8fe413b3217_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&720& data-rawheight=&481& class=&origin_image zh-lightbox-thumb& width=&720& data-original=&https://pic4.zhimg.com/v2-28e89de6d8fe413b3217_r.jpg&&&/figure&&p&这个foo.bar的地址如下:&/p&&p&&a href=&http://link.zhihu.com/?target=https%3A//www.google.com/foobar/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&google.com/foobar/&/span&&span class=&invisible&&&/span&&/a&&/p&&p&不过&b&莫激动&/b&,没有得到Google的邀请这个网页还是没有办法注册的~&/p&&p&故事的最后给我们的启示,可能是多用Google搜索……&/p&&h2&&b&Google式“高考”&/b&&/h2&&p&关于Google面试这事,其热度和难度无异于产业内的“高考”,千军万马过独木桥的景象又出现了。&/p&&p&这其中有个想进Google工作“励志哥”John Washam火了,这位小哥大学时修经济学,韩国当兵退伍后去教授英语,但对于代码和Google的渴望没有磨灭,他励志专门腾出八个月的时间全职准备Google面试,实现自己的目标!&/p&&figure&&img src=&https://pic2.zhimg.com/v2-d71b4ac381ce18760edbb14b76c52b35_b.jpg& data-size=&normal& data-rawwidth=&697& data-rawheight=&533& class=&origin_image zh-lightbox-thumb& width=&697& data-original=&https://pic2.zhimg.com/v2-d71b4ac381ce18760edbb14b76c52b35_r.jpg&&&figcaption&“励志哥”John Washam&/figcaption&&/figure&&p&这是一场“苦行僧”式的修行,小哥曾三周攻读1000页的C++书,也在GitHub上收获了21000多个star,还做了1792张电子卡片方便复习……读书、写代码和听讲座的时间总共1000多个小时了。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-8a6bd2aa2f9_b.jpg& data-size=&normal& data-rawwidth=&400& data-rawheight=&715& class=&content_image& width=&400&&&figcaption&励志哥的夏季阅读书单,只是准备过程中很小一部分&/figcaption&&/figure&&p&八个月的刻苦准备后,小哥……还是落选了,甚至连电话面试都没有就被直接拒绝了。&/p&&p&但努力总会有回报,被拒后的小哥目前就职于亚马逊。&/p&&p&Google虽好,也不能贪杯哦。&/p&&p&— &b&完&/b& —&/p&&p&欢迎大家关注我们的专栏:&a href=&https://zhuanlan.zhihu.com/qbitai& class=&internal&&量子位 - 知乎专栏&/a&&/p&&p&诚挚招聘&/p&&p&量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。&/p&&p&&a href=&https://zhuanlan.zhihu.com/qbitai& class=&internal&&量子位 QbitAI&/a& · 头条号签约作者&/p&&p&?'?' ? 追踪AI技术和产品新动态&/p&
安妮 栗子 发自 泽浩寺 量子位 出品 | 公众号 QbitAI可能每个程序猿,都想过加入Google。然而想要“应试”成功,考验的不仅仅是开发人员的编程技术,还能侧面考验着参赛者的渠道来源是否广泛、背景力量是否强大、脑洞回路是否清奇……不过,梦是要做的,简…
&figure&&img src=&https://pic2.zhimg.com/v2-34f19d0c74ce00b2ce055b414f80915d_b.jpg& data-rawwidth=&755& data-rawheight=&450& class=&origin_image zh-lightbox-thumb& width=&755& data-original=&https://pic2.zhimg.com/v2-34f19d0c74ce00b2ce055b414f80915d_r.jpg&&&/figure&&blockquote&编者按:本文作者Abhijeet Kumar是一名有着五年机器学习和数据科学工作经验的从业者。从今年年初开始,他开始在印度的数据科学、机器学习或深度学习领域找工作。在为期30—40天的求职过程中,他面试了8—10家公司,其中不仅包括刚成立一年的创业公司,也有亚马逊这种电商巨头。Kumar把每家公司的面试题记录下来,为各位求职者提供经验。以下是论智的编译。&/blockquote&&p&先介绍一下我自己,我有过4年以上机器学习的工作经验,主要工作内容有话语分析、文本分析和图像分析。我认为该领域最稀缺的人才是NLP专业,然后是图像分析(CV),主要进行话语或音频分析的较少。有了五年的工作经验后,我的目标是中高层职位,可以带领一个数据或机器学习团队做一些有趣的研究。以下是我在面试过程中遇到的各种技术性问题,供大家参考。&/p&&hr&&h2&全球服务性公司之一(20—25分钟)&/h2&&ol&&li&请问你在搭建文档挖掘系统的过程中,做了哪些工作?&/li&&li&假设给你数TB的数据文件,其中包含PDF、文本文件、图像、扫描的PDF文件等等。你将如何对其分类?&/li&&li&你如何阅读扫描的PDF或书面文件?&/li&&li&为什么朴素贝叶斯被称为“朴素”?&/li&&li&详细谈谈朴素贝叶斯分类器?&/li&&li&什么是深度学习?机器学习和深度学习的区别在哪里?&/li&&/ol&&p&除此之外还有一些类似的问题,但是我对它们有些一头雾水,完全不知道面试官想听到什么样的答案。我一直想探讨更深层次的技术层面的东西,但是他们一直没有聊到这方面。而且当我扯起模型训练、tesseract或者语言模型时,他们似乎完全不吃这一套。也许他们想听到的是现成的成果,或是很简单的解释。这跟我五年前第一次面试的感觉非常相似。&/p&&hr&&h2&全球服务型公司之二(40—45分钟)&/h2&&ol&&li&你如何能在无监督的方式下收集文件?&/li&&li&你如何找到与某些查询问题相关的文件?&/li&&li&解释一下TF-IDF。&/li&&li&根据我的经验,TF-IDF在文档分类或收集方面失败了,你今后会怎么改善?&/li&&li&什么是LSTM神经网络?解释一下它是如何工作的。&/li&&li&什么是word2vec向量?&/li&&li&Python中可变和不可变对象是什么意思?&/li&&li&你在Python中使用什么数据结构?&/li&&/ol&&p&虽然有几个问题是围绕文本相似度的,但我都顺利回答出来了。不过这次和上次一样,仍然没有深层次技术上的探讨,或许是考虑到公司有几个关于文本分析的小项目,他们最终还是向我发出了offer。&/p&&hr&&h2&全球生产和服务公司(40分钟)&/h2&&ol&&li&在不平衡的数据集中,你如何处理多类别的分类问题?&/li&&li&你是如何从文本句子中进行语言识别的?&/li&&li&你如何表示中文或日文中的象形文字?&/li&&li&该如何设计一个聊天机器人?(在这一点上我没有太多想法)&/li&&li&输入一对问题和回答,我能用RNN设计一个聊天机器人吗?&/li&&li&假设我用Reddit上的数据集和RNN或LSTM创建了一个聊天机器人,它给了我10个备选回复,我如何才能选择最佳的那个?或者说,我如何删除其他的回复?&/li&&li&解释一下SVM是如何学习非线性边界的?&/li&&/ol&&p&除此之外还有几个问题我记不清了,不过这是目前为止第一个问技术性问题的公司,我感到非常欣慰。最后这家公司也向我发了offer。&/p&&hr&&h2&成立一年的医疗健康公司(50分钟)&/h2&&ol&&li&精确率(precision)和召回率(recall)是什么?在医学诊断中,你认为哪个更重要?&/li&&li&对精确率和召回率分别进行定义。&/li&&li&你如何绘制ROC曲线?ROC曲线下面积表示什么?&/li&&li&在多类别分类任务中你如何绘制ROC曲线?&/li&&li&除此之外,还有哪些评估多类别分类任务结果的方法?&/li&&li&灵敏度(sensitivity)和特异度(specificity)是什么?&/li&&li&随机森林中的“随机”指什么?&/li&&li&你如何进行文本分类?&/li&&li&在没有TF-IDF的情况下,你如何确定自己学会了文本?&/li&&li&你还能用机器学习做些什么?&/li&&li&当神经网络由线性节点构成时,它如何学习非线性形状?它如何学会非线性边界?&/li&&/ol&&p&除此之外还有几个不错的问题。尽管面试过程感觉不错,但是在某些问题上我们未能达成一致。而且在面试过程中,我发现公司只有2—3人专注于ML/DL/DS。&/p&&hr&&h2&亚马逊(50—55分钟)&/h2&&ol&&li&训练决策树时的参数是什么?&/li&&li&在决策树的节点处分割的标准是什么?&/li&&li&基尼系数的公式是什么?&/li&&li&熵的公式是什么?&/li&&li&决策树如何决定在哪个特征处分割?&/li&&li&你如何用数学计算收集来的信息?你确定吗?&/li&&li&随机森林的优点有哪些?&/li&&li&介绍一下boosting算法。&/li&&li&gradient boosting如何工作?&/li&&li&关于AdaBoost算法,你了解多少?它如何工作?&/li&&li&SVM中用到了哪些核?SVM中的优化技术有哪些?&/li&&li&SVM如何学习超平面?用数学方法详细解释一下。&/li&&li&介绍一下无监督学习,算法有哪些?&/li&&li&在K-Means聚类算法中,如何定义K?&/li&&li&告诉我至少3中定义K的方法。&/li&&li&除此之外你还知道哪些聚类算法?&/li&&li&谈谈DB-SCAM算法。&/li&&li&阶层聚合式分类法(Hierarchical Agglomerative clustering)是如何工作的?&/li&&li&解释一下PCA,使用PCA时有哪些数学步骤。&/li&&li&使用PCA有哪些缺点?&/li&&li&CNN如何工作?详细说一下使用细节。&/li&&li&解释一下CNN中的反向传播。&/li&&li&你如何部署机器学习模型?&/li&&li&大多时候,我们可能需要用C++从零开始搭建机器学习模型,你能做吗?&/li&&/ol&&p&我面试的是亚马逊level 6的职位。我只能说,他们主要的关注点在算法和背后的数学上。不幸的是,我的面试都是即兴的,并没有准备数学方面的知识,我只说了我所记得的所有东西。不过面试官并不认为我适合level 6的工作。我相信只要你能记住通用的机器学习算法的数学细节,就能轻易地通过亚马逊技术轮面试。&/p&&hr&&h2&全球服务型巨头(50—55分钟)&/h2&&ol&&li&S函数的范围是什么?&/li&&li&scikit-learn的哪个安装包能实现逻辑回归?&/li&&li&标准正态分布的平均数和变量是什么?&/li&&li&你在Python中用什么数据结构?&/li&&li&文本分类的方法有什么,你都怎样做?&/li&&li&解释一下TF-IDF,它的缺点有什么?你怎么克服?&/li&&li&bigrams和trigrams是什么?用带有文本句子的例子解释一下bigram和trigram的TF-IDF。&/li&&li&word2vec有哪些应用,举个例子?&/li&&li&你会怎样设计一个神经网络?怎样把它变深?&/li&&li&LSTM是如何工作的?它是怎么记住文本的?&/li&&li&什么是朴素贝叶斯分类器?&/li&&li&抛10次硬币,4次是正面的概率有多大?&/li&&li&如何获取Python中列表元素的索引?&/li&&li&如果用pandas合并两个数据集?&/li&&li&从用户角度出发,你需要模拟欺诈活动,你会如何解决这个问题?&/li&&li&你更喜欢决策树还是随机森林?&/li&&li&使用逻辑回归和随机森林有什么区别?&/li&&li&在分类问题上,你会用决策树还是随机森林?用随机森林有什么优点?&/li&&/ol&&p&最终这家公司向我发放了数据科学岗位的offer。事实上,我非常享受这次的技术性交流。你可能会觉得这些问题也是最基础的机器学习和数据科学问题。不过在面试过程中我感到面试官可能不是这一领域的,或者对现在的发展了解的不多。&/p&&hr&&h2&全球商业管理公司(25—30分钟)&/h2&&ol&&li&在不平衡的数据集中,你会选择什么模型:随机森林还是boosting?为什么?&/li&&li&你了解的boosting技术有哪些?&/li&&li&用监督学习的方法进行分类问题,你会选择哪个模型?(大约40—50个类别)&/li&&li&你如何使用集成技术?&/li&&li&SVM如何工作的?&/li&&li&什么是Kernel?简单介绍一下。&/li&&li&如何执行非线性回归?&/li&&li&Lasso回归和Ridge回归是什么?&/li&&/ol&&p&说实话,这次面试有点水,以至于我没有认真对待。不过问题还是不错的。我面试的是领导一个15—16人的团队,在这之后是经理面试和HR面试。最终他们给我提供了咨询岗位以及不错的薪水。&/p&&hr&&h2&成立4年的生产和服务型公司(60分钟)&/h2&&ol&&li&简历上说,你曾做过用语音识别演讲者,具体方法是什么?&/li&&li&什么是MFCCs?&/li&&li&高斯混合模型是什么,它是如何完成聚类的?&/li&&li&如何实现期望最大化?其中的步骤是什么?&/li&&li&GMM中的概率如何计算?&/li&&li&在对演讲者进行识别时,你是如何为GMM-UBM技术执行MAP调整的?&/li&&li&谈谈你所用的I-向量技术。&/li&&li&语境中的分析因素是什么?&/li&&li&JFA和I-向量的区别是什么?为什么选择I-向量而不选JFA?&/li&&li&你用过PLDA I-向量技术吗?&/li&&li&你读过百度的有关Deep Speaker的论文吗?&/li&&li&如果有两个模型都可用,你会如何选择?&/li&&li&贝叶斯信息度量(BIC)和赤池信息量(AIC)工作的数学原理是什么?&/li&&li&BIC和AIC背后的原理是什么?&/li&&li&在你的MFCC特征向量矩阵中,如果有数据丢失怎么办?&/li&&li&如何分辨语言?有什么特点?&/li&&li&你的分类器更像是话语和音乐的分类器,还是话语和非话语的分类器?&/li&&li&在语言分析应用中,如何部署深度神经网络?&/li&&/ol&&p&是的,你可能会问这都是什么问题。非常巧的是,我们两个人的研究领域都是语音分析,特别是演讲者识别。所以整个面试过程一直在围绕语音分析。很显然,面试官很专业,并且给了我非常积极的反馈。之后,这家公司给我提供了AI解决方案架构师的工作。&/p&&hr&&h2&建议&/h2&&p&在整个求职过程中,我大概与25—30位专业人士有过交谈,以下是我在这之后能给出的建议:&/p&&ul&&li&简历很重要。要在其中写明参加过的项目、Kaggle竞赛、MOOC证书或者论文。我就是在没有任何推荐人推荐的情况下接到了亚马逊的电话。你的简历是打动HR和面试官的重要武器。&/li&&li&自信心和驱动力是成功的一半。参加面试时一定要自信,并且展示出你的热情(尤其是在创业公司和服务型公司)。&/li&&li&面试时不要急着回答问题。花些时间想想如何组织答案,如果有不明白的地方一定要问。面试时一定要冷静。&/li&&li&在解释概念时别忘了表现自己。你可以提几个做过的案例,并且要熟悉你简历里写的技能和项目。&/li&&li&如果你是这一领域的新人,在创建简历时可以从自己做过的项目开始,或者GitHub账号也是很有说服力的。除此之外,可以多参加Kaggle竞赛和MOOC课程。&/li&&li&学会谦虚,注意倾听面试官的意见。有的时候,R和Python的使用者会互相鄙视,最好不要这样,不然很可能挂掉。&/li&&/ul&&p&&b&最后,祝大家面试成功!&/b&&/p&&p&论智君:答案?拟答案什么的是不可能的,这辈子都不可能的,当然如果你关注了论智公众号jqr_AI……&/p&&a href=&https://link.zhihu.com/?target=https%3A//mp.weixin.qq.com/s%3F__biz%3DMzI3ODkxODU3Mg%3D%3D%26mid%3D%26idx%3D2%26sn%3Dfe8d0fb528c32c11c5c9db%26chksm%3Deb4ee0fedcd1b8edcaf6f7feff943bbeeddc787e683d13%23rd& data-draft-node=&block& data-draft-type=&link-card& data-image=&https://pic3.zhimg.com/v2-2d9ceed78978badf52f685b50ced44c6_ipico.jpg& data-image-width=&358& data-image-height=&358& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&6步骤带你了解朴素贝叶斯分类器(含Python和R语言代码)&/a&&a href=&https://link.zhihu.com/?target=https%3A//mp.weixin.qq.com/s%3F__biz%3DMzI3ODkxODU3Mg%3D%3D%26mid%3D%26idx%3D2%26sn%3D8b88bd6ae6c435eaa84edb%26chksm%3Deb4ee3d0dc396ac6e4ecc41a23d7bd159e81e22d32cdb19b44f9bf%23rd& data-draft-node=&block& data-draft-type=&link-card& data-image=&https://pic3.zhimg.com/v2-2d9ceed78978badf52f685b50ced44c6_ipico.jpg& data-image-width=&358& data-image-height=&358& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&数据科学、机器学习和人工智能到底有什么区别?&/a&&a href=&https://link.zhihu.com/?target=https%3A//mp.weixin.qq.com/s%3F__biz%3DMzI3ODkxODU3Mg%3D%3D%26mid%3D%26idx%3D2%26sn%3Dbacb7aa8aed53ddda2b2393%26chksm%3Deb4ee3f1dc396ae72ade51f0c69d0d4da233e117aeaec2b6e%23rd& data-draft-node=&block& data-draft-type=&link-card& data-image=&https://pic3.zhimg.com/v2-2d9ceed78978badf52f685b50ced44c6_ipico.jpg& data-image-width=&358& data-image-height=&358& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&基于TensorFlow的LSTM简介:以股票市场文本情感分析为例&/a&&a href=&https://link.zhihu.com/?target=https%3A//mp.weixin.qq.com/s%3F__biz%3DMzI3ODkxODU3Mg%3D%3D%26mid%3D%26idx%3D1%26sn%3D2f2c83ae61bchksm%3Deb4ee3cbdc396add5c3cb5c9afd3ccc2ae45e7b2ce1d195c1ab2ddc8%23rd& data-draft-node=&block& data-draft-type=&link-card& data-image=&https://pic3.zhimg.com/v2-2d9ceed78978badf52f685b50ced44c6_ipico.jpg& data-image-width=&358& data-image-height=&358& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&判断医学AI论文水不水,从读懂ROC曲线开始&/a&&a href=&https://link.zhihu.com/?target=https%3A//mp.weixin.qq.com/s%3F__biz%3DMzI3ODkxODU3Mg%3D%3D%26mid%3D%26idx%3D1%26sn%3Ddd534d73357%26chksm%3Deb4ee1aadcaf70baed2d311cdcc5ascene%3D21%23wechat_redirect& data-draft-node=&block& data-draft-type=&link-card& data-image=&https://pic3.zhimg.com/v2-2d9ceed78978badf52f685b50ced44c6_ipico.jpg& data-image-width=&358& data-image-height=&358& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&从零学习:从Python和R理解和编码神经网络(完整版)&/a&&a href=&https://link.zhihu.com/?target=https%3A//mp.weixin.qq.com/s%3F__biz%3DMzI3ODkxODU3Mg%3D%3D%26mid%3D%26idx%3D1%26sn%3De1df989de573ae%26chksm%3Deb4ee22bdc396b3deca7dfef681ab0ca6f973c203c3699%23rd& data-draft-node=&block& data-draft-type=&link-card& data-image=&https://pic3.zhimg.com/v2-2d9ceed78978badf52f685b50ced44c6_ipico.jpg& data-image-width=&358& data-image-height=&358& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&从零学习:详解基于树形结构的ML建模(R & Python)--随机森林篇&/a&&a href=&https://link.zhihu.com/?target=https%3A//mp.weixin.qq.com/s%3F__biz%3DMzI3ODkxODU3Mg%3D%3D%26mid%3D%26idx%3D1%26sn%3Dc66e6b339f24a18099daea%26chksm%3Deb4ee242dc396b547ae6b1ed4f39efc06d823fff439%26scene%3D21%23wechat_redirect& data-draft-node=&block& data-draft-type=&link-card& data-image=&https://pic3.zhimg.com/v2-2d9ceed78978badf52f685b50ced44c6_ipico.jpg& data-image-width=&358& data-image-height=&358& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&从零学习:详解基于树形结构的ML建模(R & Python)--决策树篇&/a&&p&太多了,记不清了……&/p&
编者按:本文作者Abhijeet Kumar是一名有着五年机器学习和数据科学工作经验的从业者。从今年年初开始,他开始在印度的数据科学、机器学习或深度学习领域找工作。在为期30—40天的求职过程中,他面试了8—10家公司,其中不仅包括刚成立一年的创业公司,也有…
&figure&&img src=&https://pic1.zhimg.com/v2-ffe907f4cc57b7e_b.jpg& data-rawwidth=&5908& data-rawheight=&2104& class=&origin_image zh-lightbox-thumb& width=&5908& data-original=&https://pic1.zhimg.com/v2-ffe907f4cc57b7e_r.jpg&&&/figure&&p&前言:&/p&&p&一直纠结于要不要发面经,因为或许存在临时抱佛脚看看面经也能通过面试的情况,这样以来分享面经似乎就是在做对招聘方不利的事情。但最终我还是相信,小伙伴们都是注重平时积累的。&/p&&p&本人17年3月毕业菜鸟一枚,毕业以来在从事互联网金融风控模型开发。工作时间有限,面经未免稚嫩,多见教。&/p&&p&&br&&/p&&p& 15:30 &/p&&p&&b&一面(1.5小时)&/b&&/p&&ol&&ol&&li&聊项目,从数据分析,特征构建,特征选择,模型调参,上线部署到监控。这部分写了一黑板&/li&&li&二叉树遍历,非递归。随便前序、中序、后序遍历&/li&&li&找数组的中位数,前提不能对数组进行排序(b,c写了一黑板)&/li&&li&gbdt 的基本原理,gbdt+lr的过程&/li&&li&lr的基本原理,为什么要用sigmoid的函数,最大熵模型是否了解过&/li&&li&svm的基本原理,对偶问题的作用,写出公式。(d,e,f三个题又写了一黑板)&/li&&li&hive 中数据倾斜是否遇到过,如何解决&/li&&li&hadoop是否了解,讲一下基本过程。如果想用Hadoop对海量数字排序,有几种实现方式&/li&&/ol&&/ol&&p&&br&&/p&&p&&b&二面(1小时)&/b&&/p&&ol&&ol&&li&聊项目,几乎和一面一样,又是写了一黑板&/li&&li&怎么对模型效果进行评估的?发现模型性能下降有什么改进方法,从模型角度、数据角度分析。(瞎白话了好长时间)&/li&&li&gbdt 、xgboost 、rf三者的不同&/li&&li&非递归写一个斐波那契数列&/li&&li&如果一个国家发行的钞票面值都是斐波那契里的数字,给s定一个物品价值n,问购买这个物品总共有多少种钞票组合方式。&/li&&li&合并k个有序数组,思路,时间复杂度&/li&&li&是否写过map、reduce程序,是否接触过海量数据处理,基本过程?&/li&&li&假设全球所有人都在一个矩形方格中,每个人有坐标(xi,yi),距离每个人半径为r的范围中的总人数为Ci,现在要求max(Ci),应当使用什么方法进行处理?&/li&&li&hive中什么样的操作会启动reduce进程&/li&&li&考了一个hive sql ,比较简单,一个join 一个 having&/li&&li&对自己的学习能力做评价,在遇到不会的问题时如何解决&/li&&/ol&&/ol&&p&&br&&/p&&p&&b&三面(1.5小时,面试官就是部门负责人,很和蔼)&/b&&/p&&p&ps : 每一道题几乎都是只会一半,再细问更深的数学意义就不会了。面试官一直和我说别紧张,咱们只是探讨。&/p&&ol&&li&聊一个自己感觉最有难度的项目,在项目中做的工作是什么。和一二面一样的项目,都懒得说了,写了几笔。&/li&&li&是否用过dnn、cnn等方法尝试做模型&/li&&ol&&li&画出网络结构,激活函数用的什么,relu比sigmoid的好处有哪些&/li&&li&用的什么优化方法? 有哪些优化方法,分别说一下,每种优化方法的过程,写出参数更新公式&/li&&li&为什么要用动量,它比mini-batch好的数学意义是什么。为什么动量可以走出局部最小值,数学解释,不能画图。&/li&&li&l1、l2的作用,为什么l1偏向于使特征稀疏,l2偏向每个特征都变小。不能画图,用数学意义解释。&/li&&/ol&&li&gbdt的原理,写出推导过程,每一步都停下来问两句。gbdt的梯度提升体现在什么地方,在损失函数不是平方损失函数时为什么可以用t-1步分类函数相对于损失函数的负梯度来作为残差的近似值,数学意义。&/li&&li&gbdt中每个弱分类器是什么,为什么用cart回归树而不是分类树,节点的分裂规则,写出公式。公式中的每个值在实际训练过程中是怎么计算出来的,举列子说明&/li&&li&聊了一下实习的经历,感觉哪个公司更好。当时校招为什么选择留在xxx,现在为什么要离职。&/li&&li&觉得自己今天的面试表现怎么样,后面还有什么面试,高德不是最后一家吧,还要继续找找吧?前面面试了什么公司,情况都怎么样。&/li&&li&对从事工作的行业是否有限定,职业的发展规划是什么样的。喜欢什么样的工作&/li&&li&问我有么有什么问题,我以为要挂了,就说没什么问题了,抓紧go home了。然而,面试官竟然开始和我介绍他们组是干什么的,地图的定位为什么会用到机器学习算法,怎么会产生大量数据挖掘的工作,怎么提升定位的准确性,提升定位准确性的价值。还拿出手机跟我探讨&/li&&ol&&li&你觉得滴滴打车时候,如果你在室内,怎么标记上车地点?&/li&&li&路上导航时,gps会出现抖动,我们如何判断一个车是否仍然在路上行驶?&/li&&li&在一个用户手机未开gps的时候,如何定位一个人的具体位置?&/li&&/ol&&li&然我等一会,期间问我个题外话,每家公司的面试风格是什么样的,觉得他们的面试风格怎么样&/li&&/ol&&p&&br&&/p&&p&&b&四面( 9:00)&/b&&/p&&ol&&ol&&li&聊一个自己感觉最有难度的项目,在项目中做的工作是什么。这次和前几面不一样,面试官在说项目时就不断提问&/li&&ol&&li&业务中要解决的问题是什么,注重坏用户的召回还是预测的准确率?&/li&&li&标签怎么定义的,分析过程是什么?包括金融模型中的表现期、坏用户定义都问了一下&/li&&li&样本量多少?怎么采样的,是否考虑时间对样本的影响?&/li&&li&获取特征的时间段是什么?如果一些用户消费都来自比较早的时间,对模型建模是否有影响,怎么解决这种影响&/li&&li&如何做的特征筛选?(我回答先删掉自相关特征,然后再用gbdt)追问,为什么删掉自相关特征,直接放入gbdt训练是否可以&/li&&/ol&&li&此处打断项目,让我说一下gbdt的训练过程&/li&&ol&&li&gbdt的训练过程,做分类预测时候如何训练的,cart回归树的节点分裂过程。对于连续或离散变量,树节点如何划分类别&/li&&li&gbdt的概率是怎么计算的?gbdt能否计算多分类问题,是互斥多分类问题,还是非互斥多分类?如果要做非互斥多分类,在gbdt哪一步做改进?&/li&&li&残差是怎么计算的,损失函数的形式&/li&&/ol&&li&gbdt调过哪些参数,都什么作用?为什么有这个作用,从原理出发讲一下&/li&&ol&&li&subsample 作用?为什么能提高泛化性能?这里的subsample和rf里的采样是一个作用吗?rf里的行采样、列采样的作用?rf为什么要使得每棵树不一样?gbdt里的subsample和rf不是一个作用&/li&&li&Shrinkage作用,为什么设置学习率可以防止过拟合?为什么一般情况下设置学习率模型效果会变好,原理是什么?在gbdt训练过程中,学习率是如何使用的。&/li&&/ol&&li&不均衡样本训练时有什么方法提高模型性能&/li&&ol&&li&上采样、下采样 &/li&&li&easy-enesmble&/li&&/ol&&li&平时是否有看论文的习惯,说说看过哪些论文&/li&&/ol&&/ol&&p&&b&五面( 10:00&/b&) hrbp 略&/p&&p&&b&六面( 10:00&/b&) hr 略&/p&&p&&b&Final
offer&/b&&/p&
前言:一直纠结于要不要发面经,因为或许存在临时抱佛脚看看面经也能通过面试的情况,这样以来分享面经似乎就是在做对招聘方不利的事情。但最终我还是相信,小伙伴们都是注重平时积累的。本人17年3月毕业菜鸟一枚,毕业以来在从事互联网金融风控模型开发。…
&figure&&img src=&https://pic3.zhimg.com/v2-64b2d93e8e_b.jpg& data-rawwidth=&4125& data-rawheight=&930& class=&origin_image zh-lightbox-thumb& width=&4125& data-original=&https://pic3.zhimg.com/v2-64b2d93e8e_r.jpg&&&/figure&&p&&/p&&p&试图从code snippets 和 pytorch 源代码 去理解深度学习概念与技巧&/p&&p&返回 &a href=&https://zhuanlan.zhihu.com/p/?refer=c_& class=&internal&&总目录文章&/a&
pytorch 的&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&损失函数文档解析&/a&&/p&&p&视频笔记是按时间循序更新的,越往下越新&/p&&p&大部分视频争取控制在5-8分钟以内,极少数时间在10分钟以上。&/p&&p&&u&&a href=&https://link.zhihu.com/?target=http%3A//v.mp.uc.cn/video.html%3Fuc_param_str%3Dfrdnsnpfvecpntnwprdssskt%26client%3Ducweb%26wm_aid%3D4c39097adc564b2f9c272e%26wm_id%3De36b1a89dd2d%26pagetype%3Dshare%26btifl%3D10016& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&如何使用pytorch的numpy&/a&&/u&&/p&&p&&u&&a href=&https://link.zhihu.com/?target=http%3A//v.mp.uc.cn/video.html%3Fuc_param_str%3Dfrdnsnpfvecpntnwprdssskt%26client%3Ducweb%26wm_aid%3D445daab74a286dd3d4ca5b%26wm_id%3De36b1a89dd2d%26pagetype%3Dshare%26btifl%3D10016& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&如何理解pytorch.Variable&/a&&/u&&/p&&p&&u&&a href=&https://link.zhihu.com/?target=http%3A//v.mp.uc.cn/video.html%3Fuc_param_str%3Dfrdnsnpfvecpntnwprdssskt%26wm_aid%3D2dc7e85aa1ad43db15f826c%26wm_id%3Dundefined%26col_id%3Df85a93bdbd808c6c1afbec2e11d48b3c%26pagetype%3Dshare%26btifl%3D10016& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&pytorch如何求导数&/a&&/u&&/p&&p&&u&&a href=&https://link.zhihu.com/?target=http%3A//v.mp.uc.cn/video.html%3Fuc_param_str%3Dfrdnsnpfvecpntnwprdssskt%26client%3Ducweb%26wm_aid%3D4ed4b4eba4b%26wm_id%3De36b1a89dd2d%26pagetype%3Dshare%26btifl%3D10016& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&pytorch如何求normL1L2&/a&&/u&&/p&&p&&u&&a href=&https://link.zhihu.com/?target=http%3A//v.mp.uc.cn/video.html%3Fuc_param_str%3Dfrdnsnpfvecpntnwprdssskt%26client%3Ducweb%26wm_aid%3Df84e8b665abf4ff6c755c%26wm_id%3De36b1a89dd2d%26pagetype%3Dshare%26btifl%3D10016& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&在代码中打印函数公式&/a&&/u&&/p&&p&&u&&a href=&https://link.zhihu.com/?target=http%3A//v.mp.uc.cn/video.html%3Fuc_param_str%3Dfrdnsnpfvecpntnwprdssskt%26client%3Ducweb%26wm_aid%3Df4e3cfcddf426c00c187%26wm_id%3De36b1a89dd2d%26pagetype%3Dshare%26btifl%3D10016& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&快速画函数图&/a&&/u&&/p&&p&&u&&a href=&https://link.zhihu.com/?target=http%3A//v.mp.uc.cn/video.html%3Fuc_param_str%3Dfrdnsnpfvecpntnwprdssskt%26client%3Ducweb%26wm_aid%3Dae233f205a2bd0dwm_id%3De36b1a89dd2d%26pagetype%3Dshare%26btifl%3D10016& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&构建与解剖源代码的思考&/a&&/u&&/p&&p&&u&&a href=&https://link.zhihu.com/?target=http%3A//v.mp.uc.cn/vid

我要回帖

更多关于 spring 拦截器 的文章

 

随机推荐