如何创建用于根本原因分析的决策树有哪些应用?

持牌照消费金融模型经理,发明金融风控模型算法专利,和中科院,中科大教授保持长期项目合作;和央行征信,芝麻分,百融,友盟等外部数据源公司有项目对接。熟悉消费金融场景业务,线上线下业务,包括现金贷,商品贷,医美,反欺诈等等。模型项目200+,擅长Python机器学习建模,对于变量筛选,衍生变量构造,变量缺失率高,正负样本不平衡,共线性高,多算法比较,调参等疑难问题有良好解决方法。

A级优质课程,360度讲解python信用评分卡构建流程,附代码直接使用。

教会如何用python搭建个人信用评分卡模型和企业信用评分卡模型。


0.普惠金融:数万元风控训练营价格压缩到数百元
1.3年A级优质课程,180+节课,实时更新
2.支持脚本,原始数据下载
3.画质采用高于2K超清分辨率
4.支持邮件答疑,提供售前和售后技术问题回复
5.课程定期更新,不断增值

模型变量重要性排序结果

 神经网络变量可视化

摘要: 目前临床使用最广泛的直接固位体是() 描述关于...

8、项目是为创造独特的产品、服务或结果所做的永久性努力。

9、项目选定以后,对于项目组织的最高领导层来讲,面临的重要任务就是如何对项目的具体实施进行管理。

10、项目过程组在全部项目的活动中,都可能会发生不同程度和层次的重叠。

11、制定项目计划时应当遵循目的性、系统系、动态性、职能性、完整性等原则。

7、项目是为创造独特的产品、服务或结果所做的永久性努力。

8、项目选定以后,对于项目组织的最高领导层来讲,面临的重要任务就是如何对项目的具体实施进行管理。

11、11、上周你在某海滩度假。今天你正在检查你将要承担的项目的范围变更请求,因为前任项目经理辞职离开。未判断项目范围将有多大程度的变更,你需要将变更请求与以下哪个项目文件进行比较 。

1、根据课堂上的练习题“抢劫银行”或“反抢劫银行”,选择合适的软件,结合WBS中的分解策略、分解方法和表现形式等,开发一个对应的WBS。

11、保证质量只是在基层工作的蓝领工人和直接劳动人员的责任。

5、项目风险一般会随着项目的进展而变化,越是接近项目的结束,项目的风险越大。

6、纯粹风险和投机风险在一定条件下可以相互转换,它们都服从大数定律。

7、风险识别就是查明项目的不确定性因素和风险的来源以及风险之间的关系和后果,从而明确哪些因素对项目构成威胁,哪些因素可能带来机会。

8、决策树法就是一种典型的定性项目风险分析方法。

第8章 IT项目成本管理

第9章 IT项目人力资源管理

第10章 IT项目沟通管理

3、作为一个项目沟通管理过程,行政收尾包含审核和归档项目结果,由客户对项目产品进行正式验收,行政收尾活动产生的输出包括: 。

大家好,这是本居居第一次写博客。

希望以巩固自己的算法知识,以及用一种较为容易理解的方法阐述算法,让广大读者学习借鉴为目的,坚持写下去。

百度的官方解释是这样的,决策树是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。

看不懂?难以理解?很迷惑?我也一样,我觉得可以先用一张图来初步认识决策树

我个人理解的决策树大概是这样的:

以根节点为起点,进行一次判断,由此一分为二,接着由二分四,以此类推,直到各节点无法继续分列

并且判断语句全是特征变量(即x),而每一个分支的终点则全是标签(即y)

二、构建决策树的准备工作

在说明之前,先抛出几个问题,并自问自答:

1、为什么根节点是判断 “相亲对象有房子” 这个特诊,而不是判断其他的特征?

答:决策树中特征变量的先后顺序的根据变量的"信息增益"来确定,哪个x的“信息增益大”,就用那一个X。

2、为什么在判断 相亲对象有房子 为 “是” 之后,就终结了,无法分列?而在判断 相亲对象有房子 为 “否” 之后却继续分列?

答:这个需要在X判断之后,考虑是否有继续分列的必要。

3、为什么用信息增益这个指标来构建决策树?

答:其实还可以用gini,信息增益比等,有兴趣的朋友可以多了解一下

上面提到了一个重要的知识点--“信息增益”,究竟什么是信息增益?并且如何计算信息增益?

在回答这两个问题前,需要补充另外两个知识点--“总体的经验熵(香农熵)”,“条件经验熵(香农熵)”

1)总体的经验熵公式如图

2)条件经验熵公式如图

是不是又看不懂?没关系,这时候直接看代码讲解计算(代码先截图)

上图中红框的和 就是总体经验熵的计算公式,相比于来说实例化更多,所用的就是一个简单的公式再求和。

条件经验熵是针对每个X而计算,上图是以年龄作为代表计算一次。

分别计算出年龄分组为0、1、2的条件经验熵,求和就是年龄的条件经验熵,即上图的红框部分求和。

条件经验熵与总体经验熵的公式类似,不同的在于条件经验熵需要乘以权重(权重即指每个分组占全部行数的占比)。

X的信息增益=总体经验熵-X的条件经验熵,不要怀疑,就是这么简单,而代码只要短短几行遍可以搞定

总体经验熵表示的是 y标签的不确定性,越大代表 y有更多的可能性。(不信你可以试试(0为1,1为14)以及(0为7,1为8)两类的总体经验熵哪边更大 )

条件经验熵表示的是 在某个x的条件下,y标签的不确定性,也是y对这个x的期望(这个从公式可以看出来)

而信息增益=总体经验熵-条件经验熵,表示的是这个X的信息量,值越大,说明这个X越重要(似乎难以理解,请看下图)

三、构建决策树算法步骤

具体步骤:1、在数据集中计算出4个X的信息增益

以上步骤实际是一个递归循环,如图所示

接着以2个新的数据集继续递归循环直到满足以下两个条件之一,便可以停止循环

第一个条件:拆分后的数据集,只有y,没有x;这种情况是属于无法继续拆分,此时取y的众数为叶;

第二个条件:拆分后的数据集,y列只有1个类别;例如在y全等于1的情况下,无论怎么拆分,y始终为1,那就没有继续拆分的必要了;例如上图中的第二个数据集

这里回答了上面的第二个问题。

四、构建决策树代码编写

下图是最终的决策树可视化效果;

由于这部分代码都是抄来的,所以不进行讲解,有兴趣的可以看源代码或者下面的文献参考去查查。

六、用Sklearn 模块实现决策树算法

是不是有人好奇就这么几行代码就实现决策树+可视化了?

很高兴很明确告诉你,是的,就是这么简单

个人建议学习一个算法,需要清楚明了算法的真正原理、内在,而不是一味的迁徙代码,粘贴代码

每一个算法实现可能几行代码就轻松容易解决,但却是几代人的共同努力开发出来的

若看到这还理不清决策树打算直接用sklearn,希望你能重新再看一次,再理解一次

若你看了好几次还理不清,那。。多看看其他文章吧

写到这里,其实也挺尴尬的。发现自己越写越懒,就连给所有图片取/ling_mochen/article/details/

我要回帖

更多关于 决策树有哪些应用 的文章

 

随机推荐