橙色标记的一个游戏视频网站被标记有害网站 是很久以前的一个站,类似现在的bi站,名字就是想不起来,也不知道现在火

404 Not Found中央电视台07年关于色拉的,,还有一个是寓言什么的,这两个都叫什么名字_百度知道
中央电视台07年关于色拉的,,还有一个是寓言什么的,这两个都叫什么名字
色拉那个里头,有个叫黄色拉的,还有橙色拉,紫色拉什么的.....寓言那个动画片名字里就有这两个字,但全名我想不起来了.....哪位知道这两个的???????
我有更好的答案
夜莺与鹞子
夜莺站在一棵大树上,像往常一样歌唱着。饥饿的鹞子看见她后,便猛飞过去将她抓住。夜莺临死时,请求鹞饶了她,说她难以充满鹞的肚子,如要彻底解决饥饿,应当去抓捕更大的鸟。鹞子却回答说:“若我放弃了手中现成的食物,再去追求看不见的东西,那我岂不是傻瓜了么。”
这故事是说,那些为贪图更大的利益,而放弃已到手的东西的人,是愚蠢的人。
采纳率:10%
中央台的东东?
为您推荐:
其他类似问题
您可能关注的内容
色拉的相关知识
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。就是 知音漫客 里面有个橙色头发的女生,进了一个学院,她可以变成男生而且很强,漫画叫什么名字啊?_百度知道
就是 知音漫客 里面有个橙色头发的女生,进了一个学院,她可以变成男生而且很强,漫画叫什么名字啊?
我有更好的答案
你确定那是知音漫客?…我记得漫画show里可是有你说的这么一个漫画……
那个到底是什么漫画啊?我怎么想都想不起来,一直想要看
叫legend未命名
这个是图……
是陆任嘉吧...
真的不知道!!!
肯普法!!!!
女主角叫徐婷SAMA?
好像是啊!那漫画叫什么啊?????????
其他2条回答
为您推荐:
其他类似问题
知音漫客的相关知识
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。404 Not Found404 Not FoundThe requested URL was not found on this server.您要找的内容已被删除&p&作为一个从业9年的老兵,冒着被喷死的风险揭秘数据分析行业的真相。这两年数据分析、数据挖掘概念很流行,各路教育机构,开课的老师喜欢拿美国XX信用卡公司或者啤酒与尿布这种陈年老梗来论证数据分析有啥价值。可真正在圈子里干久了就知道,数据分析能帮助公司直接创收的途径只有一种:&/p&&p&&br&&/p&&p&&b&帮乙方公司创收!&/b&&/p&&p&&br&&/p&&p&因为只有乙方公司才会把数据分析、数据挖掘、数据产品、数据咨询当作商品来卖。这样,做数据分析的就有三种方式可以帮公司创收:&/p&&p&&br&&/p&&ol&&li&&b&做产品。&/b&比如BI公司、大数据公司、舆情公司、征信公司,他们卖的是一整套数据产品。数据分析师在这些公司实际上扮演者产品生产者的角色,因此直接帮公司创收&/li&&li&&b&做服务。&/b&比如一些咨询公司、新媒体公司、大数据提供数据挖掘服务、提供数据采集、报告撰写服务。这些服务是针对甲方品牌、推广、营销等某个部门的需求,因此可以卖钱。在这里数据分析师实际上还是产品生产者,只是输出的不是一个具体的产品,而是由报告、excel、ppt、代码、会议等等组成的服务。&/li&&li&&b&做售前&/b&。相当多软件公司、咨询公司会拉一个数据分析师当售前,因为忽悠客户的时候,光空口白话说我这个方案怎么怎么好是没有竞争力的。需要一个懂数据会分析问题的人来做一个可量化的方案,让客户心服口服。在这里数据分析师实际上扮演的是销售的角色,只是这个销售卖的是知识,打动客户靠的是专业性不是送回扣。&/li&&/ol&&p&&br&&/p&&p&所以你会发现,招数据分析高薪的基本都是乙方,或者甲方企业中的乙方部门(比如阿里数据银行、智能客服,虽然是阿里的项目但是还是作为乙方提供服务给其他公司的)因为在这里数据分析才是直接生产力。&/p&&p&&br&&/p&&p&&b&在甲方?在创收问题上,数据分析从来都是排在队尾。&/b&&/p&&p&&br&&/p&&p&比如甲方爸爸要出一个新产品增加收入,那么他需要做什么呢?&/p&&p&&br&&/p&&ol&&li&设计产品&/li&&li&生产产品&/li&&li&销售渠道&/li&&li&品牌推广&/li&&li&产品促销&/li&&li&物流跟进&/li&&li&数据分析看看效果怎样……&/li&&/ol&&p&&br&&/p&&p&&b&是滴,大家会发现没有数据分析,其他六步照样可以做;只有数据分析没有前六步,数据分析就是一张废纸,这就是数据分析在甲方的尴尬之处。&/b&有些同学会说:那数据分析可以帮企业设计正确的产品哇!但实际上产品设计师不看数据照样可以设计产品,他们已经这样做了100多年了,也因此诞生了乔老爷那句经典的:我从来不看任何市场调查!&/p&&p&&br&&/p&&p&这个尴尬之处是数据分析的工作方式本身固有的局限。数据分析需要有数据才能分析,这是一种相对后置的过程。而类似产品设计,核心是创意;产品销售,核心是业务队伍的能动力。这些人的能动性是前置的动作。&b&企业的业绩是做出来的,不是算出来的,所以在创收上数据分析其实是很无力的。&/b&&/p&&figure&&img src=&https://pic2.zhimg.com/50/v2-4f488d737513eafe09259_b.jpg& data-size=&normal& data-rawwidth=&555& data-rawheight=&320& class=&origin_image zh-lightbox-thumb& width=&555& data-original=&https://pic2.zhimg.com/50/v2-4f488d737513eafe09259_r.jpg&&&figcaption&在做业绩上,营销的嘴,销售的腿,运营的活动都比分析有用的多,碾压级的有用&/figcaption&&/figure&&p&只有一种场景数据分析可能对收入有用,就是:&b&某个业务部门实在做得太差,搞不掂了。这时候如果通过分析能提升一些效益,那他们简直happy的不能行。&/b&这也是为什么很多成熟的数据挖掘项目都是做给客服外呼、短信发送、EDM的。因为在这些地方自然转化率低的令人发指,而业务部门的文案、产品、广告又起不了太大作用。同时这些渠道又都是点对点推送的方式,数据积累和建模环境相对封闭。数据模型能把自然转化率从1%提升到2%,业务部门就已经谢天谢地了。&/p&&p&&br&&/p&&p&&b&实际上,数据分析对企业有帮助,更多体现在后置性的,比如绩效评估,结果考核,成果优化上。&/b&有意思的是,很多从业者自己都没有想明白这一点,比如这个问题,帆软也有个答案,大家可以看看,里边举的例子全部是如何&b&砍&/b&成本,而不是加收入。&/p&&figure&&img src=&https://pic2.zhimg.com/50/v2-ef3058c2e_b.jpg& data-size=&normal& data-rawwidth=&2086& data-rawheight=&1324& class=&origin_image zh-lightbox-thumb& width=&2086& data-original=&https://pic2.zhimg.com/50/v2-ef3058c2e_r.jpg&&&figcaption&看起来分析名目繁多,其实大部分是事后数据总结,而且监控类的,提供个数就够了,其实没什么“分析”&/figcaption&&/figure&&p&然而,帆软的回答本身是很专业的。因为砍成本比增加收入,更容易体现数据分析的功劳。大家回顾上边新产品增加收入的过程,如果数据分析说这个业绩是我做出来的,至少有6个部门会和你抢功劳。但如果数据分析说这里有一个产品很垃圾可以砍掉,那么最多得罪一个部门(设计这个产品的部门)剩下5个部门还是支持你的(因为他们不需要浪费时间了)&b&所以,聪明的数据分析总是从内控的角度入手证明价值,而不是从外部增收的角度入手。&/b&&/p&&p&&br&&/p&&p&然鹅,这样又出了第二个尴尬的地方,就是为毛线我要上个数据产品做这个呢?甚至为毛线我要雇个数据分析师做这个呢?因为进销存的数据ERP里也有,理论上我想知道哪个产品效益不好只要有一个会SQL的程序员从ERP里跑个数就行了啊!所以如果只把数据分析的价值挂在内控上,那么数据分析的重要性和专业性就非常低了。&b&各部门老板自己也会分析啊,你们跑sql的懂业务吗?不懂业务你内控个什么呢?&/b&&/p&&p&&br&&/p&&p&这时候就需要进一步的包装以体现数据分析的价值。最核心的就是上个产品!就像后宫嫔妃,年轻貌美的时候都会讨皇上一时欢心,但长久来看还是得生个孩子的。有个孩子自己的地位就稳固了。比如销售,完全可以用纸质账单,为什么要用pos系统?就是当pos系统上线,业务流跑起来以后,就没理由再让他停掉,孩子已经生出来了,就得养着。&/p&&p&&br&&/p&&p&数据分析的孩子常见的有这么几种:&/p&&ol&&li&面向管理层的仪表盘,适用于信科学化管理这一套理论的老板&/li&&li&面向业务部门的数据产品。可能是一个推荐系统,精准营销模型,也可以是一个业务助手,数据集市,总之是业务部门日常工作中必须用到的某个环节,把它打包,用数据包装起来,封装成一个产品&/li&&li&面向一线的营销提醒工具,运营数据指南。让销售们每天都得看一眼,不看就不舒服。让运营们写文案前都得看看热度排行,不看心里没底。&/li&&/ol&&p&&br&&/p&&p&具体的就不展开了,如何引起老板关注,如何拉拢业务部门,如何让一线使用,写本书都够了。这么多年作咨询,见过大量甲乙方,凡是聪明的数据人,最终不约而同走了做内控→引起管理层重视→上产品→与业务部门合作→扩组织架构这一条路。而那些号称上个大数据系统能盈利XXX的,基本上都死无葬身之地。&/p&&figure&&img src=&https://pic1.zhimg.com/50/v2-b625db31ec77cb3bc5452afc4e6ffae8_b.jpg& data-size=&normal& data-rawwidth=&890& data-rawheight=&437& class=&origin_image zh-lightbox-thumb& width=&890& data-original=&https://pic1.zhimg.com/50/v2-b625db31ec77cb3bc5452afc4e6ffae8_r.jpg&&&figcaption&有产品才能有组织,有组织才能保障地位,这样说很官僚,然鹅有用!&/figcaption&&/figure&&p&这两年大数据、人工智能概念大火,数据分析岗位又像年轻貌美的嫔妃一样被各大企业老板们宠信,也有无数同学新涌进这个领域。所以特别诚恳的提醒大家:我们自己可以有很多方法、很多复杂的概念,然而最终企业是不是靠我们这个挣钱,才是我们长久安身立命的本钱。如果我们只是打辅助的,就尽早围绕一个具体业务场景,输出一个产品,和业务紧密结合起来,这样我们自己的地位才稳固。&/p&&p&&br&&/p&&p&最后插一句,比如算法类岗位,大家要注意区分,因为算法即可以应用在生产系统(比如影相识别,物资调配,路线规划,过程控制),也可以应用在分析系统(比如推荐、预测、BI)如果是应用在生产系统,那地位相对稳固很多,因为生产线是不会彻底更替的,只会不断优化。但如果是应用在分析系统,那水分就大了去了,大家要认真看到底这个算法是干什么再做决断。早在2013年《大数据时代》流行的时候,就兴起了一波“大数据分析”的热潮。结果当时脑子一热向老板喊了:“我们可以利用大数据XXXX分析提升业绩的”现在估计坟头草都有我娃个子高了……&/p&&p&&br&&/p&&p&作为一个前辈,有义务告诉大家这个行业的真相,数据的价值可以有很多种,不一定是直接增加收入。数据确实很有用,然而不代表老板们认可这个用处,不代表我们能从这里升官加薪。技术以外,如何创造价值,有可能需要代码和算法以外的其他东西辅助。与大家共勉。&/p&&hr&&p&更多分享,关注公众号:接地气学堂&/p&&p&从理论到商业,数据分析经历了什么?戳:&a href=&https://www.zhihu.com/question//answer/& class=&internal&&如何着手商业数据分析?&/a&&/p&
作为一个从业9年的老兵,冒着被喷死的风险揭秘数据分析行业的真相。这两年数据分析、数据挖掘概念很流行,各路教育机构,开课的老师喜欢拿美国XX信用卡公司或者啤酒与尿布这种陈年老梗来论证数据分析有啥价值。可真正在圈子里干久了就知道,数据分析能帮助…
&figure&&img src=&https://pic3.zhimg.com/v2-fad3b31d94bbef0f48c29_b.jpg& data-rawwidth=&971& data-rawheight=&703& class=&origin_image zh-lightbox-thumb& width=&971& data-original=&https://pic3.zhimg.com/v2-fad3b31d94bbef0f48c29_r.jpg&&&/figure&&p&&b& 如果你不会用爬虫爬数据,但是你又经常需要把某些网站上的数据导入到excel等软件,那么本文很适合你阅读哦。&/b&&/p&&p&前段时间想换个手机,突发奇想写个爬虫爬一下京东商城所售卖手机的信息,看看什么品牌的手机卖得最好。我分析了一下京东商城的手机页面,发现并没有手机的品牌信息,手机的品牌信息是嵌入到手机名称中的,所以可以通过手机名称获取品牌信息。&/p&&p&比如下面三部手机都是苹果手机,虽然它们的型号不同,但是它们的名称中都出现了Apple,所以我们只用提取Apple,即当某个品牌关键词出现在了手机的名称中,就能获得这个手机的品牌。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-9ff6b588b82b5ef52f50ca8aa8b33ad4_b.jpg& data-size=&normal& data-rawwidth=&752& data-rawheight=&448& class=&origin_image zh-lightbox-thumb& width=&752& data-original=&https://pic1.zhimg.com/v2-9ff6b588b82b5ef52f50ca8aa8b33ad4_r.jpg&&&figcaption&京东商城手机页面&/figcaption&&/figure&&p&&b&而重点就是如何获得手机品牌的list,下面二胖就讲一讲,如何最快速地获取一份手机品牌的list。&/b&&/p&&p&打开任意一个手机论坛:这里以手机世界为例&u&&a href=&http://link.zhihu.com/?target=http%3A//www.3533.com/phone/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&3533.com/phone/&/span&&span class=&invisible&&&/span&&/a&&/u&&/p&&p&打开品牌页面,可以看到这里列举了100多个品牌的手机,几乎比较常见手机品牌都被罗列出来了,这些信息完全可以支持我们建立手机品牌的list。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-96b34c55f8fff7e83de6be72a38bf5f6_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1081& data-rawheight=&635& class=&origin_image zh-lightbox-thumb& width=&1081& data-original=&https://pic3.zhimg.com/v2-96b34c55f8fff7e83de6be72a38bf5f6_r.jpg&&&/figure&&p& 现在的问题就是,如何用最快速的方法把品牌信息的数据下载到本地?肯定不能一个一个复制。写爬虫是个好方法,可是写爬虫需要一定的技术基础和练习时间,那么用什么方法比较好呢?&/p&&p& 下面就让二胖来告诉你这个方法。由于文字表述比较麻烦,二胖录制了一个视频,为你讲解如何用两分钟就拿到这一百多个手机品牌数据:&/p&&a class=&video-box& href=&http://link.zhihu.com/?target=https%3A//www.zhihu.com/video/880064& target=&_blank& data-video-id=&& data-video-playable=&true& data-name=&& data-poster=&https://pic3.zhimg.com/80/v2-7c81538eae982c42d61dda_b.jpg& data-lens-id=&880064&&
&img class=&thumbnail& src=&https://pic3.zhimg.com/80/v2-7c81538eae982c42d61dda_b.jpg&&&span class=&content&&
&span class=&title&&&span class=&z-ico-extern-gray&&&/span&&span class=&z-ico-extern-blue&&&/span&&/span&
&span class=&url&&&span class=&z-ico-video&&&/span&https://www.zhihu.com/video/880064&/span&
&p&(如果知乎视频不够清晰,可以关注微信公众号&b&“大数据前沿”&/b&回复“0204”获取高清视频)&/p&&p&日后,公众号将根据大家的实际需要免费推出计算机相关课程,如Python、网络爬虫、数据可视化、搜索引擎、量化交易等课程,大家记得关注哦!&/p&&p&&br&&/p&&p&同时欢迎关注二胖的知乎专栏:&/p&&p&&br&&/p&&a href=&https://zhuanlan.zhihu.com/datatalks& data-draft-node=&block& data-draft-type=&link-card& data-image=&https://pic1.zhimg.com/v2-fde988b8cc5a248_ipico.jpg& data-image-width=&900& data-image-height=&900& class=&internal&&大数据前沿&/a&&p&如果喜欢本文章,记得点个赞哟~。&/p&&p&&br&&/p&&p&&b&干货&/b&:我把我几年学习编程的方法总结到了一篇文章中,学习编程的朋友可以看一看哟~&/p&&a href=&https://zhuanlan.zhihu.com/p/& data-draft-node=&block& data-draft-type=&link-card& data-image=&https://pic1.zhimg.com/v2-6c8b4efa461b01aed752a739fx120.jpg& data-image-width=&550& data-image-height=&386& class=&internal&&二胖:这可能是我见过最好的编程指南了!&/a&&p&&br&&/p&&p&&b&近期热文&/b&&/p&&a href=&https://zhuanlan.zhihu.com/p/& data-draft-node=&block& data-draft-type=&link-card& data-image=&https://pic2.zhimg.com/v2-ebcfa76c746dd224f7af543bdx120.jpg& data-image-width=&400& data-image-height=&240& class=&internal&&二胖:大数据解密之你的同事都跳槽到了哪些公司&/a&&a href=&https://zhuanlan.zhihu.com/p/& data-draft-node=&block& data-draft-type=&link-card& data-image=&https://pic3.zhimg.com/v2-9d62b11bdce05fc0d35a_180x120.jpg& data-image-width=&400& data-image-height=&245& class=&internal&&二胖:30岁,大学毕业的你,月薪多少?&/a&&a href=&https://zhuanlan.zhihu.com/p/& data-draft-node=&block& data-draft-type=&link-card& data-image=&https://pic4.zhimg.com/v2-369ec090d7aed9cc4a017_180x120.jpg& data-image-width=&500& data-image-height=&350& class=&internal&&二胖:大数据告诉你旅行青蛙饲养员的秘密&/a&&a href=&https://zhuanlan.zhihu.com/p/& data-draft-node=&block& data-draft-type=&link-card& data-image=&https://pic3.zhimg.com/v2-959b7bda8be9dc83abd2_180x120.jpg& data-image-width=&1126& data-image-height=&630& class=&internal&&二胖:用 python 挖一挖成都房价&/a&&figure&&img src=&https://pic4.zhimg.com/v2-6addd1f687dc5fff184bdcee7e3b23eb_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1235& data-rawheight=&799& class=&origin_image zh-lightbox-thumb& width=&1235& data-original=&https://pic4.zhimg.com/v2-6addd1f687dc5fff184bdcee7e3b23eb_r.jpg&&&/figure&&p&&/p&
如果你不会用爬虫爬数据,但是你又经常需要把某些网站上的数据导入到excel等软件,那么本文很适合你阅读哦。前段时间想换个手机,突发奇想写个爬虫爬一下京东商城所售卖手机的信息,看看什么品牌的手机卖得最好。我分析了一下京东商城的手机页面,发现并没…
&p&本文由&a href=&https://link.zhihu.com/?target=https%3A//www.163yun.com/%3Ftag%3DM_zhihu_& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&网易云&/a& 发布&/p&&p&&br&&/p&&p&用户原创内容是电商和社区的生命线,但它在非法分子手中也会变成一个强大的作案工具。内容审查人员必须迅速响应,时刻严防侮辱性内容的传播。如果不这样做的话,这些内容就可能会对公司的品牌和影响力造成非常严重的损害。&/p&&p&&br&&/p&&p&内容安全架构师Kevin Lee和Jeff Sakasegawa在这方面有着相当丰富的经验,他们分享了有关内容审查方面的实践。&/p&&p&&br&&/p&&p&&b&什么是内容审查?&/b&&/p&&p&&br&&/p&&p&KevinLee:内容审查就是审查你的平台上用户生成的任何内容(UGC)。如果是Yelp,那就意味着审查用户的评分和评论;如果是Facebook,则意味着要审查用户可能在网站上发布的任何内容。&/p&&p&&br&&/p&&p&&b&哪些类型的网站、电商或者社区可能会得益于内容审查人员?&/b&&/p&&p&&br&&/p&&p&JeffSakasegawa:所有的UGC网站!任何UGC网站都必须时刻对用户体验保持一定的敏感度,电商和社区通过内容审查来培养用户的信任度,并为用户之间的交流建立一个安全的空间。&/p&&p&&br&&/p&&p&&b&有哪些内容审查是主动的,有哪些是被动的?&/b&&/p&&p&&br&&/p&&p&KevinLee:大多数公司都缺少相关的基础设施和工具来主动审核侮辱性内容。这是因为这些公司在搭建UGC平台时不会在内容审查系统上投入太大的成本。&/p&&p&&br&&/p&&p&像Facebook、Yelp和Google这样的大公司采取了两种更主动的方式:第一种方法是使用机器学习,并让用户能够标记有问题的内容。第二种方法仍然是被动的,因为它依赖于用户上报侮辱性内容,但它更积极主动,因为内容管理系统可以利用上报的内容在未来剔除类似的内容。&/p&&p&&br&&/p&&p&&b&反欺诈和风险团队如何将内容审查纳入到公司战略中,以提升公司的品牌和安全性?&/b&&/p&&p&&br&&/p&&p&KevinLee:允许UGC的公司必须要在产品级上具备内容审查的能力——在技术路线图中增加审查功能,或者允许用户标记不适当的内容。&/p&&p&&br&&/p&&p&例如,Facebook在曾经很长的一段时间内都不允许用户标记有问题的内容,他们的用户是一个巨大但尚未被开发的内容审查源。事实上,内容审查不一定来自内部团队,它也可以是外部团队。如果社区中的任何人被允许发布内容,那么任何人都应该能够上报不适当的内容。&/p&&p&&br&&/p&&p&JeffSakasegawa:如果团队在一开始的时候没有把内容审查考虑进去,那么到后面就一定会遇到各种问题。从你业务发展的初期就考虑内容审查,并思考如何使用机器学习系统进行自动化审查,这是非常重要。如果你提前将内容审查纳入到公司战略中,那你就可以更好地扩大业务运营。&/p&&p&&br&&/p&&p&&b&内容审查人员必须小心谨慎:要清除彻底,但又不能误杀。在遇到有争议的内容时,内容审查人员在保证工作效率的基础上是如何处理的呢?&/b&&/p&&p&&br&&/p&&p&JeffSakasegawa:如果你跟内容审查人员交流过,那么你可能会发现,要清楚彻底,又不能误杀是非常困难的!这个问题在很大程度上来自于审查人员本身存在的倾向。假设某人在网站上发布了一个提问的帖子。现在许多网站都可以利用第三方信息来了解这个用户的很多信息,这些信息可能表明该用户是一个十分令人讨厌的人。一旦内容审查人员知道了用户的背景,他们就可能会去推断用户的意图,让自己带着有色眼镜去审查这个用户的帖子。&/p&&p&&br&&/p&&p&对于内容审查人员来说,根据制定的政策和程序进行判断可能非常困难。他们必须专注于服务条款,并将他们对用户的主观感受与现有的规则区分开来。&/p&&p&&br&&/p&&p&&b&内容审查中可能出现哪些灰色案例?&/b&&/p&&p&&br&&/p&&p&KevinLee:假设你的平台不允许发表仇恨性言论。问题是仇恨性言论有几种不同的判断标准。在推特上,你不能针对某个特定的种族或宗教。但这个问题很快就会变得模糊起来:虽然你可能可以说“我讨厌美国人”,但你是否可以说“我讨厌白人”呢?恐怕是不行的。&/p&&p&&br&&/p&&p&JeffSakasegawa:一般来说,公司不允许用户对受保护的东西发表恶意观点。但是,受保护的东西可能因公司而异。大多数企业通过在表达观点和威胁行动之间画一条线来处理灰色地带。例如,“我讨厌凯文的发型”这句话与“每一个有着像凯文一样发型的人都欠揍”有着很大的区别。尽管两句话都对他的发型持否定态度,但第二句话崇尚暴力。&/p&&p&&br&&/p&&p&但是,许多在线社区都有自己的暗语。例如,Twitter不允许你对犹太人做出仇恨性评论,但社区可以开始使用暗语来指代犹太人,以绕过这些政策。&/p&&p&&br&&/p&&p&&b&在线社区或电商网站上,内容审查人员该如何制定明确的指导政策来确定哪些内容可以接受,哪些不可接受?&/b&&/p&&p&&br&&/p&&p&KevinLee:制定指导政策最简单和最有效的方法是提出哪些内容可以接受,哪些不可以接受的具体例子。虽然理论性的指导政策很重要,但这些政策的实际应用同样至关重要。当你需要扩充内容审查人员和训练模型的时候,这一点尤其重要。&/p&&p&&br&&/p&&p&&b&人工内容审查有哪些限制和缺点?&/b&&/p&&p&&br&&/p&&p&KevinLee:有三个主要的限制,分别是规模、灵活性和响应时间。&/p&&p&&br&&/p&&ul&&li&规模:随着平台的发展,雇用和培训人员的速度很难跟上平台发展的步伐。&/li&&li&灵活性:举个例子,如果你想把业务拓展到保加利亚,那么你必须快速找到可以用保加利亚语审查内容的人员。&/li&&li&响应时间:网站上的内容可以在一天中的任何时间发布,这意味着审查人员必须二十四小时不间断地工作,尽管他们已经很疲劳了。机器学习可以解决这三个限制。&/li&&/ul&&p&&br&&/p&&p&JeffSakasegawa:其中,规模是最重要的。侮辱性的内容是活的,它可以被截图并共享,甚至可能会进入新闻界,这会严重损害公司的形象和利润。即使你拥有一个强大的内容审查团队,他们快速响应这些内容的能力也是有限的,他们也很难无偏见的进行审查。这正是机器学习充分发挥作用的时候,它没有这样那样的限制,它会随着业务的发展而发展。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-39eb8a355b5dc7bdff9e1c_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&428& data-rawheight=&321& class=&origin_image zh-lightbox-thumb& width=&428& data-original=&https://pic4.zhimg.com/v2-39eb8a355b5dc7bdff9e1c_r.jpg&&&/figure&&p&&br&&/p&&p&本文由网易云易盾组织翻译,译者:雁惊寒。&/p&&p&&br&&/p&&p&&b&如果你是中小创业公司,在内容安全上觉得投入成本过高,无运营经验,也担心相关政策理解不到位,更担心投入了那么多没效果,那么你可以尝试用下易盾的内容安全业务,可&/b&&a href=&https://link.zhihu.com/?target=https%3A//www.163yun.com/product/antispam%3Ftag%3DM_zhihu_& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&点击这里&/a&&b&免费试用易盾反垃圾服务。&/b&&/p&&p&&br&&/p&&p&了解 &b&网易云&/b& :&/p&&p&网易云官网:&a href=&https://link.zhihu.com/?target=https%3A//www.163yun.com/%3Ftag%3DM_zhihu_& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&https://www.163yun.com/&/a&&/p&&p&新用户大礼包:&a href=&https://link.zhihu.com/?target=https%3A//www.163yun.com/gift%3Ftag%3DM_zhihu_& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&https://www.163yun.com/gift&/a&&/p&&p&网易云社区:&a href=&https://link.zhihu.com/?target=https%3A//sq.163yun.com/%3Ftag%3DM_zhihu_& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&https://sq.163yun.com/&/a&&/p&&p&&/p&
本文由 发布 用户原创内容是电商和社区的生命线,但它在非法分子手中也会变成一个强大的作案工具。内容审查人员必须迅速响应,时刻严防侮辱性内容的传播。如果不这样做的话,这些内容就可能会对公司的品牌和影响力造成非常严重的损害。 内容安全架构…
&figure&&img src=&https://pic1.zhimg.com/v2-56b0b129bb947d44d912a_b.jpg& data-rawwidth=&900& data-rawheight=&500& class=&origin_image zh-lightbox-thumb& width=&900& data-original=&https://pic1.zhimg.com/v2-56b0b129bb947d44d912a_r.jpg&&&/figure&&figure&&img src=&https://pic1.zhimg.com/v2-afb578ed3c6608c40daca0ddc910eda0_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&640& data-rawheight=&356& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/v2-afb578ed3c6608c40daca0ddc910eda0_r.jpg&&&/figure&&p&&br&&/p&&p&接连在医院奋战了差不多一星期,基本上连软件都没有碰过,都没有时间研究童鞋们发来的效果。&/p&&p&&br&&/p&&p&来一个简单的吧,看看问题:&/p&&figure&&img src=&https://pic1.zhimg.com/v2-a7c2cce8ffbc07d9e99c6dac_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&640& data-rawheight=&1107& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/v2-a7c2cce8ffbc07d9e99c6dac_r.jpg&&&/figure&&p&&br&&/p&&p&是苹果发布会的PPT么?熟练的童鞋应该知道这个用Ai的旋转工具结合混合模式是很容易做出来的。&/p&&p&&br&&/p&&p&野郎试了试,只要5分钟确实很简单。&b&但是从中也发现有混合模式中大家很容易忽视的一个知识点。&/b&&/p&&p&&br&&/p&&p&所以今天我们就通过分享这个小案例来进一步巩固软件使用的一些基础知识吧。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-ff091eefd1d_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&900& data-rawheight=&92& data-thumbnail=&https://pic2.zhimg.com/v2-ff091eefd1d_b.jpg& class=&origin_image zh-lightbox-thumb& width=&900& data-original=&https://pic2.zhimg.com/v2-ff091eefd1d_r.jpg&&&/figure&&p&&br&&/p&&p&首先打开Ai,新建画板尺寸随意:&/p&&figure&&img src=&https://pic3.zhimg.com/v2-1b6055bdbfe51c01bfbda_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1499& data-rawheight=&806& class=&origin_image zh-lightbox-thumb& width=&1499& data-original=&https://pic3.zhimg.com/v2-1b6055bdbfe51c01bfbda_r.jpg&&&/figure&&p&&br&&/p&&p&画一个渐变色的矩形并且Ctrl+2锁定充当背景:&/p&&figure&&img src=&https://pic1.zhimg.com/v2-2c338fa3b08abd733e10290_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1499& data-rawheight=&806& class=&origin_image zh-lightbox-thumb& width=&1499& data-original=&https://pic1.zhimg.com/v2-2c338fa3b08abd733e10290_r.jpg&&&/figure&&p&&br&&/p&&p&再画两个白色的圆,将圆选中以后,利用路径查找器-交集留下相交的部分:&/p&&figure&&img src=&https://pic4.zhimg.com/v2-faaeaba814baf8fa6ae2f97_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1499& data-rawheight=&806& class=&origin_image zh-lightbox-thumb& width=&1499& data-original=&https://pic4.zhimg.com/v2-faaeaba814baf8fa6ae2f97_r.jpg&&&/figure&&p&&br&&/p&&p&用缩放工具,在对象的垂直方向上改变一下形态:&/p&&figure&&img src=&https://pic3.zhimg.com/v2-52b2ea933884efaddcb18c476a307806_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1499& data-rawheight=&806& class=&origin_image zh-lightbox-thumb& width=&1499& data-original=&https://pic3.zhimg.com/v2-52b2ea933884efaddcb18c476a307806_r.jpg&&&/figure&&p&&br&&/p&&p&选中对象,点击旋转工具,按住Alt键鼠标单击去改变旋转的中心点,然后输入一个合适的角度,点击复制:&/p&&figure&&img src=&https://pic2.zhimg.com/v2-d_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1499& data-rawheight=&806& class=&origin_image zh-lightbox-thumb& width=&1499& data-original=&https://pic2.zhimg.com/v2-d_r.jpg&&&/figure&&p&&br&&/p&&p&Ctrl+D重复变换,这一步不用多说吧,做出来大概是这个样子:&/p&&figure&&img src=&https://pic1.zhimg.com/v2-ddd8a7af631ddd239aaf8_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1499& data-rawheight=&806& class=&origin_image zh-lightbox-thumb& width=&1499& data-original=&https://pic1.zhimg.com/v2-ddd8a7af631ddd239aaf8_r.jpg&&&/figure&&p&&br&&/p&&p&重点来了,为了方便给大家解释,我这里把对像复制出来了一份,并把复制出来的对象Ctrl+G进行编组:&/p&&figure&&img src=&https://pic3.zhimg.com/v2-2bd26a5f9ea93f4e60ec2_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1499& data-rawheight=&806& class=&origin_image zh-lightbox-thumb& width=&1499& data-original=&https://pic3.zhimg.com/v2-2bd26a5f9ea93f4e60ec2_r.jpg&&&/figure&&p&&br&&/p&&p&这个时候我把左边没有编组的对象选中,将混合模式改为柔光:
&/p&&figure&&img src=&https://pic2.zhimg.com/v2-2f_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1499& data-rawheight=&806& class=&origin_image zh-lightbox-thumb& width=&1499& data-original=&https://pic2.zhimg.com/v2-2f_r.jpg&&&/figure&&p&&br&&/p&&p&再把右边编组的对象混合模式改为柔光:&/p&&figure&&img src=&https://pic1.zhimg.com/v2-f669f385a80cbef6b683a60ee0507d8c_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1499& data-rawheight=&806& class=&origin_image zh-lightbox-thumb& width=&1499& data-original=&https://pic1.zhimg.com/v2-f669f385a80cbef6b683a60ee0507d8c_r.jpg&&&/figure&&p&&br&&/p&&p&&b&首先从效果上大家可以明显的看出不同,左边的对象每一个小的部分都有叠加的效果,而右边的对象是一个整体,没有叠加的效果。&/b&&/p&&p&&br&&/p&&p&这是什么原因造成的呢?这个时候我们再把左边的对象也编组,可以看到组的混合模式是正常:&/p&&figure&&img src=&https://pic4.zhimg.com/v2-5bad92416e2afbf01f046b_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1499& data-rawheight=&806& class=&origin_image zh-lightbox-thumb& width=&1499& data-original=&https://pic4.zhimg.com/v2-5bad92416e2afbf01f046b_r.jpg&&&/figure&&p&&br&&/p&&p&但当我们将组展开,会发现每一个对象的混合模式是柔光:&/p&&figure&&img src=&https://pic3.zhimg.com/v2-_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1499& data-rawheight=&806& class=&origin_image zh-lightbox-thumb& width=&1499& data-original=&https://pic3.zhimg.com/v2-_r.jpg&&&/figure&&p&&br&&/p&&p&再看左边的对象,组的混合模式是柔光:&/p&&figure&&img src=&https://pic3.zhimg.com/v2-0294daaa1dc3276bd08bbcd1e784cf86_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1499& data-rawheight=&806& class=&origin_image zh-lightbox-thumb& width=&1499& data-original=&https://pic3.zhimg.com/v2-0294daaa1dc3276bd08bbcd1e784cf86_r.jpg&&&/figure&&p&&br&&/p&&p&而展开以后每一个对象的混合模式却是正常:&/p&&figure&&img src=&https://pic1.zhimg.com/v2-d66ae9abedc_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1499& data-rawheight=&806& class=&origin_image zh-lightbox-thumb& width=&1499& data-original=&https://pic1.zhimg.com/v2-d66ae9abedc_r.jpg&&&/figure&&p&&br&&/p&&p&由此我们可以看出一个结论:&b&组的混合模式与图层的混合模式是独立存在的,更改组的混合模式不会改变组内图层的混合模式,这一点和Ps相同。&/b&&/p&&p&&br&&/p&&p&为了进一步说明这一点,我们把组的混合模式改为正片叠底:&/p&&figure&&img src=&https://pic4.zhimg.com/v2-cdfd359c333_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1499& data-rawheight=&806& class=&origin_image zh-lightbox-thumb& width=&1499& data-original=&https://pic4.zhimg.com/v2-cdfd359c333_r.jpg&&&/figure&&p&&br&&/p&&p&可以看到组下面的对象混合模式还是柔光:&/p&&figure&&img src=&https://pic1.zhimg.com/v2-3bfac1da2cf76a24a37f1d8a38c72bdc_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1499& data-rawheight=&806& class=&origin_image zh-lightbox-thumb& width=&1499& data-original=&https://pic1.zhimg.com/v2-3bfac1da2cf76a24a37f1d8a38c72bdc_r.jpg&&&/figure&&p&&br&&/p&&p&好了,把这个注意事项说清楚了,我们再继续今天的内容,把图形放到合适的位置:&/p&&figure&&img src=&https://pic4.zhimg.com/v2-8149eeca337eb39ccfc7bb_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1499& data-rawheight=&806& class=&origin_image zh-lightbox-thumb& width=&1499& data-original=&https://pic4.zhimg.com/v2-8149eeca337eb39ccfc7bb_r.jpg&&&/figure&&p&&br&&/p&&p&选中对象等比缩放,比例大家看着办就好,然后点击复制:&/p&&figure&&img src=&https://pic4.zhimg.com/v2-9defc1422b1eedc20b3c2b_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1499& data-rawheight=&806& class=&origin_image zh-lightbox-thumb& width=&1499& data-original=&https://pic4.zhimg.com/v2-9defc1422b1eedc20b3c2b_r.jpg&&&/figure&&p&&br&&/p&&p&Ctrl+D重复变换,这一步不用说了吧:&/p&&figure&&img src=&https://pic3.zhimg.com/v2-01b6bd3a736d615fcf5ef5e_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1499& data-rawheight=&806& class=&origin_image zh-lightbox-thumb& width=&1499& data-original=&https://pic3.zhimg.com/v2-01b6bd3a736d615fcf5ef5e_r.jpg&&&/figure&&p&&br&&/p&&p&按住Shift图层面板中加选编组,将选中组的混合模式改为正片叠底,并将不透明度降低:&/p&&figure&&img src=&https://pic4.zhimg.com/v2-10aad7bed90b_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1499& data-rawheight=&806& class=&origin_image zh-lightbox-thumb& width=&1499& data-original=&https://pic4.zhimg.com/v2-10aad7bed90b_r.jpg&&&/figure&&p&&br&&/p&&p&你也可以通过图层面板单独选中某一个对象,将其隐藏,让画面看起来没那么呆板:&/p&&figure&&img src=&https://pic3.zhimg.com/v2-83db63d86bab577cfc42_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1499& data-rawheight=&806& class=&origin_image zh-lightbox-thumb& width=&1499& data-original=&https://pic3.zhimg.com/v2-83db63d86bab577cfc42_r.jpg&&&/figure&&p&&br&&/p&&p&画一个和画板同样大小的矩形,全选对象,执行Ctrl+7创建剪切蒙板搞掉多余的部分:&/p&&figure&&img src=&https://pic1.zhimg.com/v2-7c8ceb28dc1ff58710b4_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1499& data-rawheight=&806& class=&origin_image zh-lightbox-thumb& width=&1499& data-original=&https://pic1.zhimg.com/v2-7c8ceb28dc1ff58710b4_r.jpg&&&/figure&&p&&br&&/p&&p&最后加点文字,Logo什么的把图片导出来看看吧:&/p&&figure&&img src=&https://pic4.zhimg.com/v2-ebf8e131b4b95281cb43dcebb6ad425b_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&2237& data-rawheight=&1080& class=&origin_image zh-lightbox-thumb& width=&2237& data-original=&https://pic4.zhimg.com/v2-ebf8e131b4b95281cb43dcebb6ad425b_r.jpg&&&/figure&&p&&br&&/p&&p&因为实际制作内容很简单,所以我尝试制作了一个短视频版,供有需要的童鞋观看:&/p&&a class=&video-box& href=&http://link.zhihu.com/?target=https%3A//www.zhihu.com/video/897856& target=&_blank& data-video-id=&& data-video-playable=&true& data-name=&& data-poster=&https://pic4.zhimg.com/80/v2-54adfe0ff_b.jpg& data-lens-id=&897856&&
&img class=&thumbnail& src=&https://pic4.zhimg.com/80/v2-54adfe0ff_b.jpg&&&span class=&content&&
&span class=&title&&&span class=&z-ico-extern-gray&&&/span&&span class=&z-ico-extern-blue&&&/span&&/span&
&span class=&url&&&span class=&z-ico-video&&&/span&https://www.zhihu.com/video/897856&/span&
&p&&br&&/p&&p&&b&如果大家觉得效果好,后面我会考虑陆续把以前的部分内容做成视频版,今后的新内容也会考虑。&/b&&/p&&p&&br&&/p&&p&好了,今天的分享就到这里,想要练习的童鞋后台回复&b&撩我&/b&获取源文件吧!&/p&&p&&br&&/p&&p&本文由“野鹿志”发布&/p&&p&转载前请联系作者“马鹿野郎”&/p&&p&私转必究&/p&&figure&&img src=&https://pic1.zhimg.com/v2-ff091eefd1d_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&900& data-rawheight=&92& data-thumbnail=&https://pic2.zhimg.com/v2-ff091eefd1d_b.jpg& class=&origin_image zh-lightbox-thumb& width=&900& data-original=&https://pic2.zhimg.com/v2-ff091eefd1d_r.jpg&&&/figure&&p&Keep Curiosity Keep Learning&/p&&p&公众号ID:yeluzhi666&/p&&p&微信ID:maluyelang666&/p&
接连在医院奋战了差不多一星期,基本上连软件都没有碰过,都没有时间研究童鞋们发来的效果。 来一个简单的吧,看看问题: 是苹果发布会的PPT么?熟练的童鞋应该知道这个用Ai的旋转工具结合混合模式是很容易做出来的。 野郎试了试,只要5分钟确实很简单。但…
&p&我理解,目前大数据风控主要分为三类:&/p&&ol&&li&反欺诈模型&/li&&li&二元好坏模型&/li&&li&资产包风控模型&/li&&/ol&&br&&p&&b&一、反欺诈模型&/b&&/p&&p&大数据风控只能用于小微资产(现金贷、消费贷、小微企业贷),而不可能用于基建、政信。对于小微资产,还款能力不是核心问题,主要风险是还款意愿。因此目前市面上大数据风控90%的价值在于反欺诈。&/p&&p&反欺诈的大数据风控主要基于两套工具:交叉验证、聚类分析。&/p&&p&交叉验证主要是由人工判断规则,系统校验是否符合实际情况。如通讯录和通话记录校验、电商记录校验、设备指纹校验、多信息源地理位置校验。以现金贷产品为例,大多数现金贷产品的基础风控逻辑就是两个摄像头,后摄像头识别身份证,前摄像头做人脸的活体识别,人脸对上身份证,就做好了反欺诈,之后就扔到二元好坏模型做评估。&/p&&p&聚类分析和交叉验证的区别是,交叉验证很多时候根据一些人工的规则,但是聚类分析主要是根据结果反向推导。比如通过历史资产的履约情况,发现在19-25岁区间的人群风险较低、发现输入地址时间比较长的人群风险较高、发现填写收入在30000以上的风险比3000以下还高。有的规则最后可以通过逻辑解释,有的规则最后根本也无法理解为什么。但是如果一个新的进件,和之前的「坏客户」比较相似,那么他大概率是坏客户。&/p&&p&以同盾为例,主要向资产、资金、支付、场景四方输出反欺诈SaaS,提供:&/p&&ol&&li&交叉验证工具&/li&&li&聚类分析报告&/li&&li&黑(灰)名单数据库&/li&&/ol&&p&&b&二、二元好坏模型&/b&&/p&&p&二元好坏模型的核心价值是量化定价,包括授信额度、贷款期限、利率等。主要工具就是评分卡,先给用户信用评分定级,然后不同级别不同利率。宜人贷分为ABCD类客户,利率分别为17%、27%、34%、40%;Lending Club分为从A1-G5共35个级别,利率水平从6%到26%不等。(16年初数据)&/p&&p&至于贷款额度,一般随行就市。&/p&&ol&&li&个人现金贷:小额现金贷以随行就市为基础,通过拍脑袋决定,在不等。&/li&&li&个人消费贷:由于中国居民杠杆率较低,基本上3C、医美、教育的资金需求都低于客户授信额,因此直接使用交易金额就行。对于车贷行业,一般也是简单分档,30万以上车审核较严,10万以下车分36期,客户还款压力也不大。&/li&&li&小微企业贷:目前大数据应用不多,主要因为小微企业造假动力强,基础数据都难以确保真实性。目前小微企业还是以抵押贷款、法人贷款、供应链融资为主,信用贷主要还是依靠IPC方式通过线下业务员重制报表实现。电商类企业的风控模型基本上是根据流水的比例来。&/li&&/ol&&p&&b&三、资产包风控模型&/b&&/p&&p&上述都是基于单笔资产的方法论,但是从资产包层面的风控有不同的考虑。&/p&&p&假设还款是1,逾期是0,不同的客户有不同的表现:&/p&&ol&&li&A:&/li&&li&B:&/li&&li&C:&/li&&/ol&&p&A是好人,B是坏人,这两个问题没有异议。很多时候,基于前两种模型我们会认为C是坏人,但是从资产包层面,他提供了不菲的罚息收益。&/p&&p&此外,资产包的风控还要考虑不同资产的相关性,考虑优先劣后配比后的预期风险改变,考虑流动性的风险。&/p&&p&&b&四、目前的市场格局和问题&/b&&/p&&p&第一个问题,长尾征信公司的价值。&/p&&p&放贷市场是碎片化的,但是征信服务提供商有规模效应,应当是集中的。也就是百融同盾两家争天下,芝麻信用、腾讯信用作为两个数据库对外输出和输入数据。&/p&&p&我搞不懂,在one or zero的市场环境下,为什么现在冒出那么多小的征信公司,还拿到融资,商业价值在哪里?尤其是像某些单一数据源的征信公司,我感觉被收购的价值都没有,大公司不如坐等你死然后收编团队?这个问题我没有答案,向各位专家请教。&/p&&p&第二个问题,过拟合问题。&/p&&p&信贷是周期性的,大周期小周期一堆。科技也是有周期性的,学生贷火起来,所有公司干学生贷,2年吃完整个市场,其他任何资产都面临创业公司蜂拥而上的局面。&/p&&p&数据量有限的情况下,模型可能过度地学习训练数据中的细节和噪音,以至于模型在新的数据上表现很差,这意味着训练数据中的噪音或者随机波动也被当做概念被模型学习了。而这件事,在市场环境发生变化之前可能没有任何人知道。&/p&&p&第三个问题,系统性风险。&/p&&p&目前大数据风控应用最广的是小额现金贷,因为他的数据反馈快(30天一反馈),因此比较容易做机器学习。市场上所有现金贷看下来,坏账率约为4-8%,都是一开始8%或者更高,通过机器学习降低到4%左右。但这个数据其实意义不大,依然无法反驳复贷的担忧:现金贷的借款人重复借款,本质上每个借款人都成为一个小的庞氏骗局池。就像当初和泛亚一起玩的经纪公司都盈利,但是最后还是免不了崩盘,过度相信科技和数据也许是金融领域更大的风险。&/p&&br&&p&&i&利益相关:没服务过征信相关项目,完全技术白痴,仅代表个人观点。&/i&&/p&
我理解,目前大数据风控主要分为三类:反欺诈模型二元好坏模型资产包风控模型 一、反欺诈模型大数据风控只能用于小微资产(现金贷、消费贷、小微企业贷),而不可能用于基建、政信。对于小微资产,还款能力不是核心问题,主要风险是还款意愿。因此目前市面…
&figure&&img src=&https://pic2.zhimg.com/v2-cd44e98fc26cfbe3569c_b.jpg& data-rawwidth=&500& data-rawheight=&331& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&https://pic2.zhimg.com/v2-cd44e98fc26cfbe3569c_r.jpg&&&/figure&&p&以前产品的好坏主要凭感觉,随着移动互联网的发展,可获取用户的各种行为数据,通过数据,我们可以了解产品的好坏、用户的喜好,从而用数据驱动产品迭代。&/p&&p&数据分析更多的是基于业务背景来解读数据,把隐藏的数据背后信息提炼和总结出来,发现其中有价值的内容。&/p&&p&由于这个过程中,数据是客观的,人是主管的。同样的数据不同的人解读出来的结论可能是不一样的,甚至是完全相反的,但结论本身没有对错,所以从客观的数据到主观的人,需要有一些科学的分析方法作为桥梁,帮助数据的信息更好、更全面、更快的传递。&/p&&p&那常用的数据分析方法有哪些呢?&/p&&h2&&b&1、趋势分析&/b&&/h2&&p&当数据很多,而我们又想从数据中更快、更便捷来发现数据信息的时候,这个时候需要借助图形的力量,所谓图形的力量,就是借助EXCEl或者其他画图工具把他画出来。下图是某个网站7月份每天的访问数据,你能从数据中得出啥有用的信息么? &/p&&p&&br&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-e8b98f8d7c23ab2ff46d84_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&429& data-rawheight=&649& class=&origin_image zh-lightbox-thumb& width=&429& data-original=&https://pic4.zhimg.com/v2-e8b98f8d7c23ab2ff46d84_r.jpg&&&/figure&&p&&br&&/p&&p&如果把它用图形画出来,就能发现一些问题。&/p&&p&1、从7月初到7月末,整体的访问人数是呈上升的趋势。&/p&&p&2、每周每两天数据都会低下去,也就是说数据有明显的周期性,工作日的表现会比周末好一些。&/p&&p&3、7月29日当天出现了一个波峰,有可能当天正在搞活动,所以当天数据是上去的。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-9befe05ff2f276c12eb0f6b_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1190& data-rawheight=&586& class=&origin_image zh-lightbox-thumb& width=&1190& data-original=&https://pic1.zhimg.com/v2-9befe05ff2f276c12eb0f6b_r.jpg&&&/figure&&p&这就是趋势分析,趋势分析一般用于核心指标的长期跟踪,比如:点击率、GMV、活跃用户数。一般做成简单的数据趋势图,但光制作成数据趋势图还不算分析,必须像上面一样,数据有那些趋势上的变化,有没有周期性,有没有拐点,并分析背后的原因,无论是内部原因还是外部原因。&/p&&p&趋势分析最好的产出是比值。有环比、同比、定基比。比如2017年4月份比3月份GDP增长了多少,这就是环比,环比体现了最近变化的趋势,但有季节性的影响。为了消除季节性的影响,推出了同比,比如:2017年4月份比2016年的4月份GDP增长了多少,这就是同比。定基比就更好理解,就是固定某个基点,比如将2017年1月份的数据作为基点,定基比则为2017年5月份的数据和2017年1月份的数据做对比。&/p&&h2&&b&2、对比分析&/b&&/h2&&p&&b&横向对比&/b&:横向对比就是跟自己比。最常见的数据指标就是需要跟目标值比,来回答我们有没有完成目标;跟我们上个月比,来回答我们环北增长了多少。&/p&&p&&b&纵向对比&/b&:简单来说就是跟他人比。我们要跟竞争对手比,来回答我们在市场中的份额和地位是怎样的。&/p&&p&很多人可能会说,对比分析听起来也很简单么。那我举个例子,有个电商的签到页面,昨天它的pv是5000,你听到这样的数据有啥感受?你不会有任何感受,如果说这个签到页面的平均PV是10000,说明昨天出现了重大问题,如果说签到页面的平均pv是2000,则昨天有个跃升,数据只有对比,才能产生意义。&/p&&p&常见的对比应用有A/B test,A/B test的关键就是保证两组中只有一个单一变量,其他条件保持一致。比如测试首页的改版效果,就需要保证来源渠道一样,用户质量一样,上线时间保持相同,这样测试出来的数据才有意义。&/p&&p&新老版本迭代的时候,我们一般列出一些指标,来评估版本迭代的好坏。比如访问频次、使用时长、启动次数、关键事件达成率、留存率....&/p&&p&而且我们一般采用对比方式来对比新版本发布前后新版本用户和老版本用户各数据指标前后的差异。&/p&&p&经常得出的结论是新版本的数据优于老版本的数据,然而真的是这样么?通常喜欢升级新版本的用户都是最活跃的用户,因为他们本身对产品的依赖度强,使用频度高,升级的机率自然就大。&/p&&p&如果想做此类数据分析,最好选择两个版本发布初期的新用户,保证对比指标之外的其他因素尽可能保持一致。&/p&&p&&br&&/p&&h2&&b&3、象限分析&/b&&/h2&&p&依据数据的不同,将各个比较主体划分到4个象限中。如果把智商和情商进行划分,就可以划分为两个维度四个象限,每个人都有自己所属的象限。一般来说,智商保证一个人的下限,情商提升一个人的上限。高智商高情商的人事业顺风顺水、高智商低情商的人做起事情来会很痛苦,觉得周围的人都是傻逼,处理不好人际关系、低智商低情商的人就没啥事业了,低智商高情商的很会处理人际关系,但是学起东西来比较慢。&/p&&p&&br&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-68fec126a536c9e4fb4abe4d04bda0d6_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&640& data-rawheight=&509& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic4.zhimg.com/v2-68fec126a536c9e4fb4abe4d04bda0d6_r.jpg&&&/figure&&p&&br&&/p&&p&扯远了,那我们回到数据分析,举一个之前实际工作中用过的象限分析法的例子。一般p2p产品注册用户都是有第三方渠道引流的,如果按照流量来源的质量和数量可以划分四个象限,然后选取一个固定时间点,比较各个渠道的流量性价比,质量可以用留存的总额这个维度作标准。对于高质量高数量的渠道继续保持,对于高质量低数量的渠道扩大引入数量,低质量低数量pass,低质量高数量尝试一下投放的策略和要求,这样的象限分析可以让我们在对比分析的时候得到一个非常直观和快捷的结果。&/p&&p&&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-6915eade14aeec26fc82171_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&640& data-rawheight=&469& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic3.zhimg.com/v2-6915eade14aeec26fc82171_r.jpg&&&/figure&&p&&br&&/p&&h2&&b&4、交叉分析&/b&&/h2&&p&对比分析既有横向对比,又有纵向对比。如果既想横向对比,又想纵向对比,就有了交叉分析法。交叉分析法就是对数据从多个维度进行交叉展现,进行多角度的结合分析。&/p&&p&在分析app数据的时候,通常会分ios和安卓来看,从下图我们可以看出ios和安卓的数量比例,以及两者之间的差距。&/p&&p&&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-d_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&640& data-rawheight=&217& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic3.zhimg.com/v2-d_r.jpg&&&/figure&&p&&br&&/p&&p&如果在上述图标中加入时间的维度,数据信息会变得丰富起来,从下面的数据中我们可以看到ios每个月的数据在增加,而安卓每个月新增的用户数量在降低,整体新增用户并没有出现增长的主要原因就是安卓端的用户在减少。&/p&&p&&br&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-c8df0ca28ea23e8191a5_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&640& data-rawheight=&237& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/v2-c8df0ca28ea23e8191a5_r.jpg&&&/figure&&p&&br&&/p&&p&从上面的例子我们可以看出,叠加一个维度,信息的数据就会变得丰富,那我们能否叠加更多维度数据进行分析呢?答案当然是可以的。从上面的图标中我们看到了安卓的2季度数量是下降的,那为什么安卓的2季度数据会下降呢?这个时候可以加入渠道的维度,从图中可以看出安卓端预装渠道的占比是比较高的,而且呈现降低的趋势,而其他渠道的变化更不明显。从这个过程中我们可以得到更进一步的结论,安卓端二季度新增用户降低主要由于预装渠道降低所致。&/p&&p&&br&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-3c441ac4eeccdf9049faa227_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&640& data-rawheight=&445& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic4.zhimg.com/v2-3c441ac4eeccdf9049faa227_r.jpg&&&/figure&&p&&br&&/p&&p&交叉分析的主要作用就是从多个维度细分数据,从中发现最为相关的维度来探索数据变化的原因。&/p&&p&常见的维度有:&/p&&ul&&li&&b&分时:&/b&不同时间段数据是否有变化。&/li&&li&&b&分渠道:&/b&不同流量来源数据是否有变化。&/li&&li&&b&分用户:&/b&新注册用户和老用户相比是否有差异,高等级用户和低等级用户相比是否有差异。&/li&&li&&b&分地区&/b&:不同地区的数据是否有变化。&/li&&/ul&&p&交叉分析法是一个从粗到细的过程,也可以叫做细分分析法。&/p&&p&&b&总结&/b&:趋势、对比、象限、交叉包含了数据分析最基础的部分。无论是数据核实、还是数据分析,找趋势、做对比、划象限、做细分,数据才能起到应有的作用。&/p&&p&&b&参考资料:&/b&&/p&&p&王彦平 吴盛峰《网站分析实战:如何以数据驱动决策,提升网站价值》&/p&&p&更多干货可关注微信公众号:&b&chanpinliu880&/b&&/p&&p&&b&觉得不错的点个赞啊,你们这样默默收藏不点赞会失去我哒。&/b&&/p&
以前产品的好坏主要凭感觉,随着移动互联网的发展,可获取用户的各种行为数据,通过数据,我们可以了解产品的好坏、用户的喜好,从而用数据驱动产品迭代。数据分析更多的是基于业务背景来解读数据,把隐藏的数据背后信息提炼和总结出来,发现其中有价值的内…
&figure&&img src=&https://pic3.zhimg.com/v2-f273eec3ce56b834f2dda_b.jpg& data-rawwidth=&1024& data-rawheight=&696& class=&origin_image zh-lightbox-thumb& width=&1024& data-original=&https://pic3.zhimg.com/v2-f273eec3ce56b834f2dda_r.jpg&&&/figure&&p&&a href=&https://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s/QrjpyIRdx9kgEljna4gE0A& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&原文链接&/a&:&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&知乎专栏&/a&&/p&&h1&目录:&/h1&&p&一、为什么要做一份数据报告&br&二、制作数据报告的流程&/p&&h1&一、为什么要做一份数据报告&/h1&&p&你是一个在校学生,上着自己喜欢或不喜欢的课,闲来无事,你打开知乎,看到了数据分析话题,你下定决心要成为一个数据分析师,你搞来一堆学习资料和在线课程,看完之后自信满满,准备去投简历,然后发现不清楚各种工具和模型的适用范围,也不知道数据报告需要包括哪些内容,面试的感觉就是一问三不知……&br&你是一个工作了一段时间的白领,你觉得现在这份工作不适合你,你下班以后去逛知乎,在上面看到很多人在说大数据代表未来,数据分析师是21世纪最性感的十大职业之一……你激动了,你也要成为数据分析师,你利用空余时间补上了统计知识,学了分析工具,然后发现自己目前的工作跟数据分析没啥关系,觉得没有相关经验没公司要你……&br&这些问题的根源是什么?一句话可以概括:你没有办法在最短的时间内向招聘者展示,你能够胜任数据分析这项工作。&br&我在之前的回答如何快速成为数据分析师? - 陈丹奕的回答中,提出过一个“100小时学习计划”,在开始投简历前的最后一步,我建议用25个小时——占整个计划的四分之一,来做一份数据报告,这个步骤至少能为你带来三个好处:&br&检验你的学习成果——数据分析是一门实用学科,能灵活运用学到的知识做出成果,比通过任何考试都重要;&br&测试你是否真的想做/适合做数据分析工作——比起你转行后用半年或是一年时间来发现自己的真实想法,不如在此之前就看看你能否做好这份工作,或是从其中得到乐趣;&br&展示你具有的能力——程序员的世界里讲究“No more talk,Show me the code”,数据分析师同样可以“Show me the report”,一份内容完整的数据报告,能帮你的面试官省下很多判断/评估/纠结的时间,给你更多的机会。&/p&&p&写了一大堆做数据报告的好处,那么以一个初学者的水平,如何去做一份数据报告呢?下文细说。&/p&&h1&二、制作数据报告的流程&/h1&&p&先放一张图&/p&&figure&&img src=&https://pic1.zhimg.com/v2-78b75b94c495_b.jpg& data-rawwidth=&600& data-rawheight=&227& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&https://pic1.zhimg.com/v2-78b75b94c495_r.jpg&&&/figure&&p&可以很清楚的看到,一个数据报告(副本)依据需求不同,有普通难度(蓝-&橙-&绿-&红),也有英雄难度(蓝-&橙-&绿+黄-&红),这次我们先讲普通难度的攻略,英雄难度放到下次讲。&br&普通难度的数据报告要经历7个步骤:&/p&&h3&Step 1:目标确定&/h3&&p&这一步在工作中通常是由你的客户/上级/其他部门同事/合作方提出来的,但第一次的数据报告中,需要你自己来提出并确定目标。&br&选择目标时,请注意以下几点:&br&选择一个你比较熟悉,或者比较感兴趣的领域/行业;&br&选择一个范围比较小的细分领域/细分行业作为切入点;&br&确定这个领域/行业有公开发表的数据/可以获取的UGC内容(论坛帖子,用户点评等)。&/p&&p&逐一分析上面三个注意点:&br&选择熟悉/感兴趣的领域/行业,是为了保证你在后续的分析过程中能够真正触及事情的本质——这一过程通常称为洞察——而不是就数字论数字;&br&选择细分领域/行业作为切入点,是为了保证你的报告能够有一条清晰的主线,而非单纯堆砌数据;&br&确定公开数据/UGC内容,是为了保证你有数据可以分析,可以做成报告,你说你是个军迷,要分析一下美国在伊拉克的军事行动与基地组织恐怖活动之间的关系……找到了数据麻烦告诉我一声,我叫你一声大神……&br&不管用什么方法,你现在有了一个目标,那么就向下个阶段迈进吧。&/p&&h3&Step 2:数据获取&/h3&&p&目标定下来了,接下来要去找相应的数据。如果你制定目标时完全遵循了第一步的三个注意点,那么你现在会很明确要找哪些数据。如果现在你还不确定自己需要哪些数据,那么……回到第一步重来吧。&br&下面我总结一下,在不依赖公司资源,不花钱买数据的情况下,获取目标数据的三类方法:&br&一是从一些有公开数据的网站上复制/下载,比如统计局网站,各类行业网站等,通过搜索引擎可以很容易找到这些网站。举例:要找汽车销量数据,在百度输入“汽车销量数据查询”关键字,结果如下:&/p&&figure&&img src=&https://pic2.zhimg.com/v2-a4c5c2b0d47cd78c7084_b.jpg& data-rawwidth=&600& data-rawheight=&437& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&https://pic2.zhimg.com/v2-a4c5c2b0d47cd78c7084_r.jpg&&&/figure&&p&我打码的那个链接,也就是第三个链接(第一个非推广链接)就是要找的结果,点进去可以看到各月的汽车销量,但只是全国数据,没有分省统计数据。&br&当然不会每次找数据都这么顺利,这里只是告诉你:要善用搜索引擎。&br&二是通过一些专门做数据整理打包的网站/api来下载,如果你要找金融类的数据,这种方法比较实用。其他类型的数据也有人做,但通常要收费。另外,淘宝上有很多帮人抓数据的店……&br&三是自行收集所需数据,比如用爬虫工具爬取点评网站的商家评分、评价内容等,或是直接自己人肉收集(手工复制下来),亦或是找一个免费问卷网站做一份问卷然后散发给你身边的人,都是可以的。这种方式受限制较少,但工作量/实现难度相对较大。&br&如果你是在职人员或是实习生,我建议你不要用任何现在公司的数据。保证数据的安全性,不对外泄露公司的任何非公开数据,是数据分析师的基本职业道德。实在非要用(例如你要在面试中展示你在以前公司做过的数据报告),请将一切有意义的内容,包括但不限于各种数字、竞品及本品名称、时间、用户属性全部打码并转成pdf格式,只留图形和叙事逻辑描述内容。&/p&&h3&Step 3:数据清洗&/h3&&p&在工作中,90%以上的情况,你拿到的数据都需要先做清洗工作,排除异常值、空白值、无效值、重复值等等。这项工作经常会占到整个数据分析过程将近一半的时间。&br&如果在上一步中,你的数据是通过手工复制/下载获取的,那么通常会比较干净,不需要做太多清洗工作。但如果数据是通过爬虫等方式得来,那么你需要进行清洗,提取核心内容,去掉网页代码、标点符号等无用内容。&br&无论你采用哪一种方式获取数据,请记住,数据清洗永远是你必须要做的一项工作。&/p&&h3&Step 4:数据整理&/h3&&p&清洗过后,需要进行数据整理,即将数据整理为能够进行下一步分析的格式,对于初学者,用Excel来完成这一工作就OK。&br&如果你的数据已经是表格形式,那么计算一些二级指标就好,比如用今年销量和去年销量算出同比增长率。鉴于你是第一次做数据报告,建议你不要计算太多复杂的二级指标,基本的同比、环比、占比分布这些就OK。&br&如果你收集的是一些非数字的数据,比如对商家的点评,那么你进行下一步统计之前,需要通过“关键词-标签”方式,将句子转化为标签,再对标签进行统计。&/p&&h3&Step 5:描述分析&/h3&&p&描述分析是最基本的分析统计方法,在实际工作中也是应用最广的分析方法。描述统计分为两大部分:数据描述和指标统计。&br&数据描述:用来对数据进行基本情况的刻画,包括:数据总数、时间跨度、时间粒度、空间范围、空间粒度、数据来源等。如果是建模,那么还要看数据的极值、分布、离散度等内容。这次我们是零基础做数据报告,那么就不用考虑后一类数据了。&br&指标统计:用来作报告,分析实际情况的数据指标,可粗略分为四大类:变化、分布、对比、预测;&br&变化:指标随时间的变动,表现为增幅(同比、环比等);&br&分布:指标在不同层次上的表现,包括地域分布(省、市、区县、店/网点)、用户群分布(年龄、性别、职业等)、产品分布(如动感地带和全球通)等;&br&对比:包括内部对比和外部对比,内部对比包括团队对比(团队A与B的单产对比、销量对比等)、产品线对比(动感地带和全球通的ARPU、用户数、收入对比);外部对比主要是与市场环境和竞争者对比;这一部分和分布有重叠的地方,但分布更多用于找出好或坏的地方,而对比更偏重于找到好或坏的原因;&br&预测:根据现有情况,估计下个分析时段的指标值。&br&以上部分引用自我的一个回答面试中针对一个企业的数据分析场景应该怎么去分析?应届生还不懂怎么结合企业业务做系统的分析,求指点 - 陈丹奕的回答,希望进一步了解的话,可以进这个答案。&br&描述分析的产出是图表,下一个步骤的内容将基于这些图表产出。&/p&&h3&Step 6:洞察结论&/h3&&p&这一步是数据报告的核心,也是最能看出数据分析师水平的部分。一个年轻的分析师和一个年迈的分析师拿到同样的图表,完全有可能解读出不同的内容。&br&举个例子:&/p&&figure&&img src=&https://pic4.zhimg.com/v2-4eb5f9bb52d0e661ae64cabd_b.jpg& data-rawwidth=&481& data-rawheight=&289& class=&origin_image zh-lightbox-thumb& width=&481& data-original=&https://pic4.zhimg.com/v2-4eb5f9bb52d0e661ae64cabd_r.jpg&&&/figure&&p&年轻的分析师:2013年1月销售额同比上升60%,迎来开门红。2月销售额有所下降,3月大幅回升,4月持续增长。&br&年迈的分析师:2013年1月、2月销售额去除春节因素后,1月实际同比上升20%,2月实际同比上升14%,3月、4月销售额持续增长。&br&看到两者的区别了吗?2013年春节在2月,2012年则在1月,因此需要各去除一周的销售额,再进行比较。如果不考虑这一因素,那么后续得出的所有结论都是错的。挖掘数字变化背后的真正影响因素,才是洞察的目标。&br&再举个例子:&/p&&figure&&img src=&https://pic1.zhimg.com/v2-c93c92d51b1c4ae_b.jpg& data-rawwidth=&600& data-rawheight=&284& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&https://pic1.zhimg.com/v2-c93c92d51b1c4ae_r.jpg&&&/figure&&p&这张图是一个用户行为聚类的结果,人群被聚成四类。前三类人群可以很清楚的得出结论:他们是某一种游戏主机的用户。那么第四类人群,是什么人群呢?&br&年轻的分析师:第四类人群是游戏主机的狂热爱好者,他们交易频率远高于一般用户。&br&年迈的分析师:第四类人群是二手贩子,否则谁没事一年内会搞将近7台索尼主机放家里。&br&很明显,年迈的分析师由于具备丰富的行业经验,能迅速看穿数据背后的真实情况,得出正确的洞察结论,这也是为什么我在step 1里一再强调要找你熟悉或感兴趣的领域/行业,缺乏业务经验,很可能你的洞察结果是完全错误的。&br&以上这两个洞察的例子本身比较简单,但通常来说,即使是复杂的数据报告,也是由一个个相对简单的洞察结论组成的,这其中涉及到问题的分拆,逻辑线的建立等一系列内容。作为初学者,做到自己力所能及的程度就好。&br&总结一下,所谓洞察,就是要越过数据,去推测和理解真实情况。单纯描述数据,谁都会做,根据数据得出有价值的结论,报告才有意义。&/p&&h3&Step 7:报告撰写&/h3&&p&都到这一步了,相信各位对数据报告也不再陌生了。这一步中,需要保证的是数据报告内容的完整性。&br&一个完整的数据报告,应至少包含以下六块内容:&br&报告背景&br&报告目的&br&数据来源、数量等基本情况&br&分页图表内容及本页结论&br&各部分小结及最终总结&br&下一步策略或对趋势的预测&/p&&p&其中,背景和目的决定了你的报告逻辑(解决什么问题);数据基本情况告诉对方你用了什么样的数据,可信度如何;分页内容需要按照一定的逻辑来构建,目标仍然是解决报告目的中的问题;小结及总结必不可少;下一步策略或对趋势的预测能为你的报告加分。&br&还觉得复杂么?我再换一种说法:&br&各位应该都写过议论文,一份好的数据分析报告其实就是一篇好的议论文,立论(背景)——破题(目的)——列举论据(图表+结论)——论证论点(小结及总结)——结题(策略或预测)。按照这个逻辑去组织你的报告,你的论点就很容易被人接受,自然能得高分喽。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-78b75b94c495_b.jpg& data-rawwidth=&600& data-rawheight=&227& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&https://pic1.zhimg.com/v2-78b75b94c495_r.jpg&&&/figure&&br&&p&那么,普通难度的数据报告做法就是这样了。高深的固然要更难一些,但是普通的已经将整体的路径将的很清楚了。&/p&
:目录:一、为什么要做一份数据报告 二、制作数据报告的流程一、为什么要做一份数据报告你是一个在校学生,上着自己喜欢或不喜欢的课,闲来无事,你打开知乎,看到了数据分析话题,你下定决心要成为一个数据分析师,你搞来一堆学习资料和…
&p&反欺诈方向的实际应用很多,我有做过保险业反欺诈和零售快消业的欺诈检测,抛砖引玉的谈谈反欺诈项目的&b&&道&&/b&和&b&&术&。&/b&&/p&&p&&b&*具体的学习方法可以参考我最近的文章:&/b&&a href=&https://www.zhihu.com/question//answer/& class=&internal&&机器学习门下,有哪些在工业界应用较多,前景较好的小方向?&/a&&/p&&p&&b&该回答的第一部分(1)讨论了为什么欺诈检测难度很大,第二部分(2-4)讨论了a. 数据可视化 b. 一些常用的算法及模型 c. 欺诈点验证,第三部分(5)归纳并提出了一个反欺诈模型的通用框架供大家参考。&/b&&/p&&p&--------------------------------------------------------------------------------------------------------------------&/p&&h2&&b&1. 背景 - 为什么反欺诈检测难度很高?&/b&&/h2&&p&反欺诈项目很多情况下就是客户根本不知道什么是欺诈,什么不是。换句话说,对于什么是诈骗的定义很模糊。&b&往小了说,反诈骗似乎是一个二分类问题(binary classification),但你仔细想想后会发现其实这是个多分类问题(multi-class classification),如果你把每种不同诈骗当做一种单独的类型。而单一类型的诈骗几乎是不存在的,且诈骗的手段日新月新总在变化。&/b&即使像银行还有保险公司这种常年和诈骗打交道的行业,也必须常常更新自己的检测手段,而不是把赌注压到同一个模型上。&/p&&p&除此之外,欺诈检测一般还面临以下问题:&/p&&ul&&li&九成九的情况数据是没有标签(label)的,各种成熟的监督学习(supervised learning)没有用武之地。&/li&&li&区分噪音(noise)和异常点(anomaly)时难度很大,甚至需要发挥一点点想象力和直觉。&/li&&li&紧接着上一点,当多种诈骗数据混合在一起,区分不同的诈骗类型更难。根本原因还是因为我们并不了解每一种诈骗定义。&/li&&li&...&/li&&/ul&&p&退一步说,即使我们真的有诈骗的历史数据,即在有标签的情况下用监督学习,也存在很大的风险。&b&用这样的历史数据学出的模型只能检测曾经出现过与历史诈骗相似的诈骗,而对于变种的诈骗和从未见过的诈骗,我们的模型将会无能为力&/b&。&b&因此,在实际情况中,我不建议直接用任何监督学习,至少不能单纯依靠一个监督学习模型来奢求检测到所有的诈骗。&/b&&/p&&p&这就陷入了一个鸡生蛋蛋生鸡的死循环,因为没有历史标签和对诈骗的理解,我们无法做出能对诈骗细分的模型。因此我们一般使用无监督学习(unsupervised learning),且需要领域专家(domain experts)也就是对这个行业非常了解的人来验证我们的预测,提供反馈,以便于及时的调整模型。&/p&&h2&&b&2. 反欺诈项目的操作顺序(1) - 可视化&/b&&/h2&&p&一般在拿到数据以后,我会推荐以下步骤进行分析。当然,一个答案很难包括所有常见的操作,仅仅是分享个人经验以供思考。&/p&&p&&b&数据可视化 - 相关矩阵(Correlation Matrix) & 多维尺度变换(Multidimensional Scaling)
&/b&&/p&&p&&b&人是视觉动物,可以在第一时间“看到”数据中存在的问题。&/b&因此,对于大部分反欺诈问题,我建议至少要做以下两个可视化尝试:&/p&&p&&b&2.1.&/b&首先对不同的特征(feature)做一个&b&相关矩阵分析并可视化&/b&,&b&分析相关矩阵的目的是告诉我们特征两两之间的关系,以便于我们快速发现一些数据里面可能存在的问题。最重要的是帮助我们检查数据是否存在问题,&/b&有没有什么违反常理的情况。&/p&&p&以我最近在写的文章为例(并不是反欺诈问题),对不同偶像团体是否能够继续走红进行预测。我们希望不同特征之间的两两关系符合尝试, 我在模型里面用了6个不同的特征并计算相关矩阵: &/p&&figure&&img src=&https://pic3.zhimg.com/50/v2-8833bbd4cc4daa41c3fecbd38a30f23b_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1027& data-rawheight=&145& class=&origin_image zh-lightbox-thumb& width=&1027& data-original=&https://pic3.zhimg.com/50/v2-8833bbd4cc4daa41c3fecbd38a30f23b_r.jpg&&&/figure&&p&通过上表及下图,我们发现:&/p&&ul&&li&团员的平均的年龄和演唱会次数无关。&/li&&li&出道长度和和演唱会次数为负相关。&/li&&/ul&&figure&&img src=&https://pic3.zhimg.com/50/v2-b0a027cdc063_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1273& data-rawheight=&882& class=&origin_image zh-lightbox-thumb& width=&1273& data-original=&https://pic3.zhimg.com/50/v2-b0a027cdc063_r.jpg&&&/figure&&p&举例,如果我们发现出道年限和专辑数呈负相关,这就违反了常识。按照常识出道时间越长专辑数应该越多,因此需要认真检查为什么会有这样的情况发生,是否是潜在问题。&/p&&p&&b&2.2. 多维尺度变换(MDS)来直接可视化数据分布&/b&&/p&&p&我们都知道一般来说欺诈和正常数据应该“长得不一样”,那是否可以直接把它们画出来来分析。&/p&&p&然而,数据可视化往往都是二维或者三维的,但现实往往是成百上千维。即使我们把一个特征作为一个维度,我们最多也只能可视化三个维度。而&b&多维尺度变换(MDS)可以将高维的数据在二维或者三维的框架里面进行可视化,类似的数据点会更加接近。通过观察数据点的分布,我们可以直观的猜测数据是否有规律,是否存在潜在异常点。&/b&&/p&&p&以我最近做的一个项目为例,我们用MDS将一个8维的数据在2维上展示出来。我们似乎可以直观的看到一些近似线性的关系,以及一些看起来“很可疑”的点,我在图中标注了出来。&/p&&figure&&img src=&https://pic3.zhimg.com/50/v2-50fd5f1b100c5753d1bf_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1286& data-rawheight=&838& class=&origin_image zh-lightbox-thumb& width=&1286& data-original=&https://pic3.zhimg.com/50/v2-50fd5f1b100c5753d1bf_r.jpg&&&/figure&&p&这样做的好处有两点:&/p&&ul&&li&首先我们可以看到数据是否存在特定的特征,如果所有的点都是随机散乱分布,那我们的麻烦就大了。&/li&&li&我们似乎可以看到有一些离群的数据点,这些点可能是潜在的“欺诈”,也有可能只是噪音而已。&b&但我们可以向客户或者老板展示这个可视图,向他们证明项目有潜在的价值。&/b&&/li&&/ul&&p&如果在可视化中我们看到了一些规律,这让有信心继续往下做,进入建模阶段。多加一句,此处和主成分分析(PCA)也有异曲同工之妙。&/p&&h2&&b&3. 反欺诈项目的操作顺序(2) - 算法&/b&&/h2&&p&一般我们对欺诈检测做两种假设:&/p&&ol&&li&&b&时序相关(time dependent)。&/b&对于时序相关的问题,我们假设欺诈的发生依赖于时间,通过时间序列分析,我们可以发现异常的地方。举例,假设一个人的信用卡平时1-11月每月消费2000美元,但12月突然消费了5000美元,此时时间就对我们的项目存在意义。&/li&&li&&b&时序独立(time independent)。&/b&对于时序独立的问题,我们假设每一个欺诈都是独立,和时间无关。于是在分析中,我们移除了时间这个特征,我们不再把时间作为一个分析轴或者影响欺诈发生的特征。&/li&&/ol&&p&&b&3.1. 时间序列分析(time series analysis)&/b&&/p&&p&时间序列分析展开说是很大的话题,从简单的观察一个时间序列是否稳定(stability)到更复杂的看多个特征如何在时间上互相作用如 vector auto-regression(var)。&/p&&p&一般我们对时间序列重整使其稳定后,会进行一系列分析,最简单的就是观察什么时候出现反常的spike(即突然上升)。&/p&&figure&&img src=&https://pic1.zhimg.com/50/v2-554bd362cad_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&638& data-rawheight=&187& class=&origin_image zh-lightbox-thumb& width=&638& data-original=&https://pic1.zhimg.com/50/v2-554bd362cad_r.jpg&&&/figure&&p&图片来源(&a href=&//link.zhihu.com/?target=https%3A//blogs.technet.microsoft.com/machinelearning//anomaly-detection-using-machine-learning-to-detect-abnormalities-in-time-series-data/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Anomaly Detection – Using Machine Learning to Detect Abnormalities in Time Series Data&/a&)&/p&&p&就像上图所标注出来着一系列点都是潜在的异常点。严格意义上说,时间序列分析在金融经济领域使用的更多,任何交易模型都需要时序分析。&/p&&p&另一种简单的时序分析就是持续追踪某个值的变化情况,并在多个数据中进行对比:&/p&&figure&&img src=&https://pic2.zhimg.com/50/v2-14ddeac4660151_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1036& data-rawheight=&508& class=&origin_image zh-lightbox-thumb& width=&1036& data-original=&https://pic2.zhimg.com/50/v2-14ddeac4660151_r.jpg&&&/figure&&p&上图是某种产品在不同零售商(不同颜色)的退货情况,x轴是时间。我们会发现“橙色”的零售商的退货模式更不稳定(前期有大量持续退货),而“青色”的零售商退货非常稳定。因此,&橙色&零售商似乎有些可疑。当然,这只是一种解读方法,不代表一定有问题。&/p&&p&&b&3.2. 时间独立下的建模&/b&&/p&&p&&b&3.2.1. 无监督学习&/b&&/p&&p&如果我们假设时间对于欺诈并没有影响,那么我们有很多无监督学习可以用来检测异常值。&/p&&ol&&li&像某位答主提到的&b&Isolation Forest&/b&就是一种非常稳定的算法,是周志华老师提出的。而且在Sklearn里面已经得到了实现。基本的原理就是一种集成学习,通过计算每个数据点需要多少次节点拆分(splitting)才能被划分到独立的空间。&b&异常点因为和其他正常点离得较远不大相似,因此更容易用很少的拆分就可以被划到独立的空间里面去。&/b&&/li&&li&各种&b&Density Based的聚类方法(CBLOF)&/b&。此处需要注意,大家熟知的K-Means为原型的聚类,如K-Modes都不大适合用于异常值检测,因为其本身很容易受到异常值和噪音的扰动。&/li&&li&各种以K近邻(KNN)为原型的检测方法。从本质上说,和聚类方法是比较类似的。&/li&&/ol&&p&&b&3.2.2. 统计学密度估计及分布测试&/b&&/p&&p&比较简单的做法可以尝试将数据拟合到假设的混合模型上(finite mixture models),再通过统计学测试检查异常点、 一般不大推荐直接这么做,因为需要对于正常数据分布的深刻了解,才能做出对于数据分布的正确推断。&/p&&p&&b&3.2.3. 监督学习&/b&&/p&&p&就像上文提到的,我不太建议直接用监督学习。当然,在特定场合下如果需要使用的话,比较出名的就是MetaCost框架,可以结合各种基础学习器使用。&/p&&p&&b&3.3. 时间相关及独立的交叉验证&/b&&/p&&p&其实很多问题不是非此即彼,换句话说,时间独立和时间独立可能找到相似的异常点。在项目允许的情况下,我们大可以将两种时间假设都做一遍,之后求交集。若出现在交集中,我们对于该点是诈骗的信心会进一步上升。&/p&&h2&&b&4. 反欺诈项目的操作顺序(3) - 如何验证欺诈点?&/b&&/h2&&p&假设我们通过上面的无监督学习得到了一些“潜在的欺诈点”,我们可以做一些分析来验证它们是否真的是欺诈。&b&首先我必须声明,这种归纳是存在很大偏见的,但很难避免&/b&。&/p&&p&举例,我们可以对比异常值数据作为样本(sample)与总体(population)的各项数据的统计值(如均值方差等),从统计学上证明它们是有显著差异的。但有显著差异并不代表他们一定是欺诈,只能说明它们不同。&/p&&p&当我们从统计学上证明其存在显著差异后,我们就开始想要归纳潜在的欺诈原因。以某供货商的数据为例,我们发现一个产品的进货变多、退货变少,但单位收益却上升,这是有问题的。&/p&&p&于是我们就可以大胆的推测他的进货和退货不是同一种产品,即在退货时用了比较便宜商品但拿到了更多的退货钱。&/p&&p&&b&把这个故事讲给领域专家以后,他们会支持、质疑、甚至反对这个看法。根据领域专家的反馈,我们可以不断的调整优化模型,期待发现更多的问题。有的时候,也可以直接叫领域专家来帮忙分析为什么一些数据可能是欺诈。&/b&&/p&&h2&&b&5. 总结 - 如何构建可行的欺诈检测方案?&/b&&/h2&&p&首先,我们必须先要认清一个残酷的现实: &b&单纯依靠机器学习模型来检测欺诈是愚蠢的。至少在现阶段我们不能单纯依靠纯粹的数据模型来做这一点。比较折中且可行的方法是做 混合模型(hybrid model),也就是把人为规则和机器学习模型合二为一,一起来使用&/b&。&/p&&p&首先我们通过对领域专家的访谈和对历史数据的分析,可以得到一些非常可靠的评判标准。以保险行业为例,如果一个人刚买短期保险没两天就意外身亡,这存在欺诈的风险就很高。&b&这样的标准或许从机器学习中可以学到,或许学不到。如果有成本更低方法做到更好的效果,不要迷信全自动模型。&/b&&/p&&p&&b&总结来说,反欺诈模型难度很高,而且需要和领域专家一起协作才能有最好的结果。机器学习从业者千万不要闭门造车,试图

我要回帖

更多关于 手机号标记查询网站 的文章

 

随机推荐