大数据是个什么鬼啦

& 大数据风控是个什么鬼?
大数据风控是个什么鬼?
这个风控是屌丝
& & &不知何时起,大数据开始风靡各个领域,从餐饮、住宿到购物再到旅游......大数据频繁应用到各行各业的市场拓展中。而近几年,对于火热发展的互金公司来说,言必称大数据似乎也成为了一种“高科技”潮流。
&&& 大数据风控是目前Fintech领域的主要应用,也是资本市场关注的宠儿。很多大型互金公司都开发了大数据风控模型,业界也涌现了很多专门做大数据风控技术然后输出技术能力的技术研发型公司。然而,大数据风控有很强的技术壁垒,并非每家公司都能做好,不排除一些企业利用大数据风控的概念进行炒作。对于不懂技术的普通人而言,大数据风控的概念也是云里雾里。
大数据风控模型,技术含量真的高吗?
&&& 那么,说起大数据风控,首先大家可能想到的是必不可少的“高科技工具”——大数据风控模型。
&&& 大数据风控模型是通过全方位收集用户的各项数据信息,并进行有效的建模、迭代,对用户信用状况进行评价,可以决定是否放贷以及放贷额度、贷款利率。主要分为四个部分:数据收集、数据建模、构建数据画像和风险定价。具体考核数据如下图所示:
一、数据收集
&&& 互联网大数据包括:
1、用户行为数据(精准广告投放、内容推荐、行为习惯和喜好分析、产品优化等);
2、用户消费数据(精准营销、信用记录分析、活动促销、理财等);
3、用户地理位置数据(O2O推广,商家推荐,交友推荐等);
4、互联网金融数据(P2P,小额贷款,支付,信用,供应链金融等);
5、用户社交等UGC数据(趋势分析、流行元素分析、受欢迎程度分析、舆论监控分析、社会问题分析等)。
二、数据建模
&&& 模型包含四大方面的数据:
1、个人/公司的基本信息,包括个人资历、个人/公司的信用信息、公司财务指标、家庭结构关系、家庭社会地位关系、个人社交关系、工商注册信息等;
2、个人/公司商务信息,包括线上零售交易信息、、个人/公司资质、土地出让/转让信息、质押抵押信息等;
3、个人/公司社会公众信息,包括涉诉信息、专利信息、被执行人信息等;
4、个人/公司社会关联方信息,包括自媒体、证券社区、行政监管/许可、行业背景、商标、招中标、行政处罚、抵押担保等。
常使用的模型:
1)聚类: 比如常见的相似文本聚类,大量用户发相似帖子是常见的灌水行为,需要处理。
2)分类:比如我们根据已经识别的有风险和无风险的行为,去预测现在正在发生的行为,根据关键字动态去识别预测效果不错。
3)离群点检测:比如登录行为,当同ip登录大量登录失败,这种行为可能是暴力破解,当同ip登录基本全部成功,这种行为可能是机器登录,采用离群点检测发现这两类行为并处理等。
&&& 大数据风控模型构建的两个必要步骤,一是,发现不同特征与违约之间是否有相关性;二是,为不同的特征赋予权重或违约概率,以确定拥有多项特征的用户的信用状况,决定是否提供金融服务、具体的额度以及利率水平。目前国内90%以上的建模团队都使用Logistic回归做评分卡,当然还有少数人使用决策树,神经网络和机器学习目前还没在此行业有显著成果。Logistic制作评分卡模型的衡量标准是K-S值的大小,依据数据质量和建模能力在0-0.5之间,一般在0.3以上才可用,好的模型可以达到0.35。芝麻分模型的K-S值在0.32左右。
&&& 模型开发出来后,应用到具体的信贷等金融活动中,等若干个放款周期结束后,会有结果数据出来,这时候需要依据这些运营数据对模型进行修正,经过一次次的迭代,模型的有效性、实用性会逐步提升。
应用案例:
1、欺诈风险用到模型主要是社会关系网络模型,通过每笔案件之间的关系,判断新案件是欺诈申请的可能性。
2、信用风险主要用到模型是逻辑回归建立评分卡(也有的用决策树),量化新申请人可能违约的概率,根据评分高低制定不同的授信规则和催收策略。
3、贷后管理也用到行为评分卡,例如额度调整和客户风险分池管理等。
大数据风控对模型的挑战:
1.模型的泛化能力:复杂的特征和模型可以增强模型的泛化能力,采用复杂特征和更多维度的特征是很有效的。
2.模型的可解释性:风控模型识别出来的数据需要做相应的处理,任何机器识别处理都不可能完全避免用户的投诉和异义,对于模型一定要了解业务特征,能够转化为客服和用户可以理解的语言去解释,使得任何处理我们都有理有据。
3.模型的更新速度:高对抗性场景下,模型快速更新是关键。
三、数据画像
&&& 用户画像的底层是机器学习,那么无论是要做客户分群还是精准营销,都先要将用户数据进行规整处理,转化为相同维度的特征向量,诸多华丽的算法才可以有用武之地,像是聚类,回归,关联,各种分类器等等。
&&&对于结构化数据而言,特征提取工作往往都是从给数据打标签开始的。比如购买渠道,消费频率,年龄性别,家庭状况等等。好的特征标签的选择可以使对用户刻画变得更丰富,也能提升机器学习算法的效果(准确度,收敛速度等)。
四、风险定价
&&& 量化风险管理的一个核心是风险定价,根据平台自身的风险偏好来对资产进行定价,高风险资产定价较高,低风险产品定价较低,根据风险高低来制定,RBP(基于风险定价)已经成为主流。虽然对技术的应用日趋成熟,但现实的情况是,行业的业务模式仍然大量基于人海战术,在信用评级和风险定价方面过多依赖人的经验。
&&& 目前的互联网数据+金融已经开始改变这一状况。尤其是在领域,互联网大数据积累已经让风控进入2.0时代。通过数据的积累,可以实现客户开发和数据采集通过人工完成。
多维度的风险定价系统
&&& 中国现实的难处是,个人信用数据缺失,央行征信只能覆盖25%人群。同时金融机构风险定价水平不高,导致市场难以发展。目前京东用积累的数据推出了“京东白条”,蚂蚁金服开发淘宝购买者数据推出了“花呗”,这些都有一个限制就是只能在指定的服务商消费才可以用。但这也从一定程度上说明利用大数据可以实现业务的功能。目前,已有一些P2P平台通过接入了多家第三方数据用于风控。通过对数据的整合、补充、调用、评判等,使风控模型运算结果更加准确。
定制化的风险定价系统
&&& 从商务智能的角度说,模型、评分、策略等都是为具体的业务服务的,脱离了具体场景的模型和评分是无本之木,无源之水,脱离了业务场景谈模型的准确性,没有实质意义。不同的业务场景,产生了不同的数据,不同的数据包含着不同的规律,体现在数据分析中就是模型、参数和评分。
&&& 这也要求评分的模型在设计之初,就要考虑如何更加智能。不同的设计者必然风控模型也会不同,因此定制化的风险定价系统将成为未来的趋势。
如何判断大数据风控的成色?
&&& 几乎所有的互金公司都在宣传自己的“眼花缭乱”的大数据风控,这样可以让平台用户更加放心,也给投资机构讲一个技术含量高的“故事”,但并非每个公司都有相应的能力。就算确实已经开发大数据技术,但能力也有高下之分。如何判断一家互金公司的大数据风控技术的成色好不好?
&&& 1)首先看团队实力,团队是否有足够的技术人员,是否有相应的开发经验和履历。技术团队的规模与构成是衡量其大数据能力的重要指标,这一点比较直观。
&&& 2)其次,看公司的业务特征是否有使用的数据技术的必要。企业如果服务于足够海量的用户群体,交易频次也足够高频,则有通过大数据技术提升运营能力的需要,也会有越来越大的数据支撑模型的迭代。如果一家企业只是服务于有限的客户,使用传统的线下风控模式就可以,没有使用大数据技术的必要,而且过程中无法产生大量的数据,也就无法为模型提供数据支持,所以也就没有使用大数据风控的可能性。例如,在P2P行业,如果借款人都是机构,且都是分散各行各业的融资标的,则大数据风控没有用武之地,也没有使用的必要。
&&& 3)另外,还要看经营的时间长短。验证一个大数据风控模型的有效性,需要几万笔贷款进行验证。如果业务经营没有多长时间,不会累积足够的历史数据,也就无法对模型进行技术进行及时的迭代更新,其有效性也就面临很大考验。
现阶段,大数据风控面临哪些问题?
&&& 发展大数据风控无疑是行业必经趋势,但其发展道路肯定也不是一帆风顺,还是面临很多障碍和困境。
&&& 1)首先是数据源的问题。数据量需要进一步扩大,为模型提供训练数据方面的支撑。对于一些缺乏信用数据的群体而言,目前很多线下行为都还没有数据化,线上数据也比较有限,对于这类群体,各种行为线上化、数据化进而将数据结构化,需要有一个过程。近些年来随着智能手机与社交网络应用的普及,很多缺乏信用数据的群体在线上有了一些数据,但数据量还需要进一步增加。未来物联网的发展可能带来更丰富的数据信息,辅助进行风控决策。
&&& 2)其次是面对的欺诈行为层出不穷,不断考验模型的有效性。“骗子也有知识分子,甚至也精通风控模型。”想骗贷的群体对反欺诈模型也是很感兴趣,想方设法寻找漏洞以骗取资金,各种包装公司伪造技术也助长其欺诈行为。一个模型出来以后,刚开始可能比较有效,但面对新出现的欺诈行为可能又缺乏辨别能力,导致模型精准度下降。这就需要大数据风控模型在试错中不断迭代,加入更多复杂特征和更多维度的特征。这对于大数据风控公司的技术能力是持续的考验。
&&& 3)另外,大数据风控的发展要避免场景、行业、授信人群的集中化。企业做大数据风控,往往会选择一个场景、垂直行业或细分人群进行切入,这样可以将一个场景做深做透,深度分析、利用该领域的数据,但从金融的规律看,信贷过于集中于某个领域可能带来风险。所以,在做资产的时候,包括人群区域性、资产类别尽可能得做分散。零售信贷行业很多风险事件是因为行业对某一个群体人的过度的授信,导致风险延伸到整个经济。如果集中在某个场景或者某一类人群,风险可能越来越大,最终对行业市场有一个很大的冲击。
P2P公司常用的互金大数据风控方式有哪些?
一、个人身份信息验证
二、分析提交的信息来识别欺诈
三、分析客户线上申请行为来识别欺诈
& &&欺诈用户往往事先准备好用户基本信息,在申请过程中,快速进行填写,批量作业,在多家网站进行申请,通过提高申请量来获得更多的贷款。
四、利用黑名单和灰名单识别风险
&&& 互联网金融公司面临的主要风险为恶意欺诈,70%左右的信贷损失来源于申请人的恶意欺诈。客户逾期或者违约贷款中至少有30%左右可以收回,另外的一些可以通过催收公司进行催收,M2逾期的回收率在20%左右。
&&& 黑名单来源于民间借贷、线上P2P、信用卡公司、等公司的历史违约用户,其中很大一部分不再有借贷行为,参考价值有限。另外一个主要来源是催收公司,催收的成功率一般小于于30%(M3以上的),会产生很多黑名单。
&&& 灰名单是逾期但是还没有达到违约的客户(逾期少于3个月的客户),灰名单也还意味着多头借贷,申请人在多款平台进行借贷。总借款数目远远超过其还款能力。
五、利用移动设备数据识别欺诈
&&& 行为数据中一个比较特殊的就是移动设备数据反欺诈,公司可以利用移动设备的位置信息来验证客户提交的工作地和生活地是否真实,另外来可以根据设备安装的应用活跃来识别多头借贷风险。
&&& 欺诈用户一般会使用模拟器进行贷款申请,移动大数据可以识别出贷款人是否使用模拟器。欺诈用户也有一些典型特征,例如很多设备聚集在一个区域,一起申请贷款。欺诈设备不安装生活和工具用App,仅仅安装和贷款有关的App,可能还安装了一些密码破译软件或者其他的恶意软件。
&&& 欺诈用户还有可能不停更换SIM卡和手机,利用SIM卡和手机绑定时间和频次可以识别出部分欺诈用户。另外欺诈用户也会购买一些已经淘汰的手机,其机器上面的操作系统已经过时很久,所安装的App版本都很旧。这些特征可以识别出一些欺诈用户。
六、利用消费记录来进行评分
&&& 大数据风控除了可以识别出坏人,还可以评估贷款人的还款能力。过去传统金融依据借款人的收入来判断其还款能力,但是有些客户拥有工资以外的收入,例如投资收入、顾问咨询收入等。另外一些客户可能从父母、伴侣、朋友那里获得其他的财政支持,拥有较高的支付能力。
&&& 按照传统金融的做法,在家不工作照顾家庭的主妇可能还款能力较弱。无法给其提供贷款,但是其丈夫收入很高,家庭日常支出由其太太做主。这种情况,就需要消费数据来证明其还款能力了。
&&& 常用的消费记录由银行卡消费、电商购物、公共事业费记录、大宗商品消费等。还可以参考航空记录、手机话费、特殊会员消费等方式。例如头等舱乘坐次数,物业费高低、高尔夫球俱乐部消费,游艇俱乐部会员费用,奢侈品会员,豪车4S店消费记录等消费数据可以作为其信用评分重要参考。
七、参考社会关系来评估信用情况
八、参考借款人社会属性和行为来评估信用
九、利用司法信息评估风险
&&& 涉毒涉赌以及涉嫌治安处罚的人,其信用情况不是太好,特别是涉赌和涉毒人员,这些人是高风险人群,一旦获得贷款,其贷款用途不可控,贷款有可能不会得到偿还。
&&& 获客、风控、留存客户、触发客户消费是金融行业的几大痛点,对于互联网金融行业而言,大数据除了在风控方面发挥着巨大作用外,在精准营销、产品创新、提升运营效率和决策支持等方面亦为企业发展提供动力。
&私募基金(PrivateFund)是私下或直接向特定群体募集的资金。与之对应的公募基金(PublicFund)是向社会大众公开募集的资金。人们平常所说的基金主要是共同基金,即证券投资基金。从研究范式来划分,证券投资的分析方法主要有如下三种:基本分析、技术分析、演化分析,这三种分析方法基于完全不同的理论体系和逻辑结构,其主要研究对象,都只侧重于市场运作的某一特定方面或者范畴,都有其合理性和局限性,但...&今天下午临时被同事拉去出差,跑了个小长途。原以为没时间写,想请假的,发现回来还有点时间,今天盘中大跌,还是上来和大家交代几句。A股下午大跌,吓坏了很多人,不少人以为刚消失的穿肠阴又回来了。是不是暴跌又回来,我觉得要明天在看一天,至少我还是乐观的。今天下午的大跌很可能是B股的大跌引起的。B股指数今天暴跌6%。下午13点半,莫名的B股指数大跌。13点45左右,A股开始跟风。估计很多新股民都不知道B股是...&前文:越来越多的人把目光转移到了股票、外汇市场,可是很多时候,能否准确预测价格变动的范围和幅度,以及进行广泛的调查或评估复杂的财务报告,会让新入市场的投资者一时很是茫然。这个时候一款简单的金融工具将会受到大家的青睐,二元期权也就这样应运而生。但是,很多投资者提起二元期权会感到很迷茫,不知道什么是二元期权?那么,接下来带你好好认识一下二元期权什么是二元期权二元期权,又称数字期权、固定收益期权,是操作...&区块链技术是指一种全民参与记账的方式。所有的系统背后都有一个数据库,你可以把数据库看成是就是一个大账本。目前是各自记各自的账。由于没有中心化的中介机构存在,让所有的东西都通过预先设定的程序自动运行,不仅能够大大降低成本,也能提高效率。而由于每个人都有相同的账本,能确保账本记录过程是公开透明的。区块链技术是比特币的底层技术,比特币在没有任何中心化机构运营和管理的情况下,多年运行非常稳定,没有出现过任...&点击标题下「登陆新三板」可快速关注ST股是个什么鬼?日,沪深交易所宣布,将对财务状况或其它状况出现异常的上市公司股票交易进行特别处理(Specialtreatment),并在简称前冠以“ST”,因此这类股票称为ST股。所谓“财务状况异常”是指以下几种情况:(1)最近两个会计年度的审计结果显示的净利润为负值。(2)最近一个会计年度的审计结果显示其股东权益低于注册...&
版权声明:本站内容全部来自于腾讯微信公众号,属第三方自助推荐平台。《大数据风控是个什么鬼?》的版权归原作者「这个风控是屌丝」所有,文章言论观点不代表慢钱头条的观点, 慢钱头条不承担任何法律责任。如需删除可联系QQ:
文章来源:
关注这个风控是屌丝微信公众号
这个风控是屌丝微信公众号:fengkongdiaosi
手机扫描上方二维码即可关注这个风控是屌丝微信公众号
这个风控是屌丝最新文章
精品公众号随机推荐
违规或不良信息
广告、钓鱼诈骗
内容不完整现在还不明白到底什么是大数据?不怕,百度李彦宏为你简单解说_腾讯视频
三倍流畅播放
1080P蓝光画质
新剧提前看
1080P蓝光画质
纯净式无框播放器
三倍流畅播放
扫一扫 手机继续看
下载需先安装客户端
{clientText}
客户端特权:
3倍流畅播放
当前播放至 {time}
扫一扫 手机继续看
界动报道:百度李彦宏:到底什么是大数据,大数据到底有多“大”?——界动视频丨专注互联网财经界动态
1.3万971166546447.2万3.0万19.8万276620.2万3.2万27.9万742563363.5万8466357581.3万2.0万1.2万3459拒绝访问 |
| 百度云加速
请打开cookies.
此网站 () 的管理员禁止了您的访问。原因是您的访问包含了非浏览器特征(3d34c3f-ua98).
重新安装浏览器,或使用别的浏览器《好看》依托百度技术,精准推荐优质短视频内容,懂你所好,量身打造最适合你的短视频客户端!A股六大魔咒都是什么鬼 大数据证招商策略魔咒最坑爹_市场研究_新浪财经_新浪网
A股六大魔咒都是什么鬼 大数据证招商策略魔咒最坑爹
  经过大数据的校正,除了神奇的策略会,A股市场上流行的各种魔咒,大多是经不起推敲的。
  这个世界上真的有魔法吗,我们这些麻瓜肯定无从知晓。估计还是有的,否则为啥有那么多魔咒呢?比如有首歌叫爱情大魔咒,比如足球有著名的塔斯曼魔咒。数据宝小编发现,魔咒出现频率最高的地方,居然是A股。
  1、中石油魔咒
  算是A股市场的头号魔咒,自2007年底中石油上市以来,只要这只票大涨,其它个股,特别是各种题材股一定会暴跌。以至于中石油成了A股最有效的看空信号。
  数据验证:中石油上市至今,除去上市首日,共有28次单日涨幅超过5%。这28个交易日的指数表现,只有2次当天大盘下跌,有13次次日大盘下跌。对个股影响,28次中只有8次当天有50%以上个股下跌,有12次次日50%以上个股下跌。
  结论:无论是对指数,还是对个股,数据上中石油上涨都构不成“利空魔咒”的标准。相反,当中石油上涨时,市场当日和次日的行情表现还是相当不错的。
  2、钢铁魔咒
  魔咒描述:只要钢铁板块领涨大盘,当天市场行情必然看空。
  数据验证:根据申万一级行业指数,2007年以来,钢铁板块涨幅超过3%且居所有行业之首共有40次。其中只有4次当日大盘是下跌的,有21次次日大盘是下跌的。有6次当日下跌个股比例过半数,有18次次日下跌个股比例过半数。
  结论:无论是当日还是次日,指数还是个股,似乎也达不到所谓的魔咒效应。
  3、招商策略会魔咒
  这是一个很无厘头的魔咒,近几年,只要招商证券开投研策略会,当日股市就会看空。这种东西似乎没有任何道理,但数据却很有说服力。
  数据验证:从2011年末开始计算,每年分年中、年末,各2天,到2015年年中,一共16个交易日。其中有12个交易日当日大盘下跌,11个交易日当日上涨个股占比不足50%。
  结论:招商开策略会时,大盘下跌概率超过70%,魔咒基本应验。
  4、黑周四魔咒
  近两年,但凡周四,大盘下跌的概率都极高,市场普遍于周四看空。
  数据验证:由于该魔咒只是近几年兴起,只取2014年以来的周四,共有84个交易日。其中大盘下跌44次,占比约52%;个股下跌占比超过50%的47次,占比约56%。样本换成2015年,上述指标分别为46%和51%。
  结论:下跌概率只有50%左右,达不到魔咒的标准。
  5、期指交割日魔咒
  每逢期指交割日,市场均会看空。
  数据验证:自日A股股指期货成立以来,截止到今年9月,共有66个交割日。其中大盘下跌29次,占比44%;个股下跌占比超过50%的31次,占比47%。
  结论:或许曾经是,但现在肯定不是。
  6、新股发行魔咒
  新股密集发行时期,市场当日往往看空。
  数据验证:2007年以后,有新股发行的交易日共568个,募资金额超过100亿的共32个,属于新股高发交易日。根据数据,大盘下跌的交易日只有8个,占比不足3成;而下跌个股过半数的交易日16个,刚刚50%。
  结论:虽然资金面上可能利空,但对大盘的利空影响似乎并不明显。
最近访问股

我要回帖

更多关于 哆啦a梦吸血鬼 的文章

 

随机推荐