|
Just begin:
建模数据----9 个字段, 分别是id(客户编号),sex(性别),age(年龄),degree(学历),marry(婚姻状况),salary(收入),health(健康状况),house(房产状况),type_of_danger(客户风险分类),文本格式为.csv (备注:所有数据及流程场景,纯属个人YY)
Customer.csv:
id,sex,age,degree,marry,salary,health,house,type_of_danger
1,male,49,2,married,high,good,yes,no
2,female,24,2,unmarried,middle,good,no,yes
3,female,39,3,married,low,good,yes,no
4,male,37,3,married,low,good,yes,yes
5,male,44,3,married,high,common,yes,no
6,male,42,3,divorce,high,good,yes,yes
7,female,38,2,married,middle,good,yes,no
8,male,32,2,married,high,good,yes,no
9,male,35,3,married,low,good,yes,no
10,male,39,3,unmarried,low,bad,no,yes
11,female,23,3,unmarried,low,good,no,yes
12,male,38,3,divorce,good,common,yes,yes
13,male,22,1,unmarried,good,low,no,yes
14,female,25,1,married,good,low,no,no
15,female,28,2,unmarried,middle,common,no,no
16,male,21,2,unmarried,middle,good,no,no
17,female,22,3,unmarried,low,bad,no,yes
18,female,38,2,married,low,bad,yes,yes
19,male,33,3,married,low,bad,yes,no
20,female,41,1,married,middle,yes,no,yes
建模流程:
其中,id,sex,age,degree,marry,salary,health,house,选作输入字段,type_of_danger选作目标字段(离散非范围) ,运行一下,模型就出来了;

运行得到的决策树模型可视化:

根据预测变量重要性,可得出银行客户的salary(收入状态)和marry(婚姻状况)对目标字段分类影响权重较大。

数据略少,模型看着已相当高大上,总是这么正气十足,,模型已出,不论模型质量(分类评估指标:命中率及覆盖率)
customer2.csv是应用于预测的数据文件,该文件包含8个字段, 分别是id(客户编号),sex(性别),age(年龄),degree(学历),marry(婚姻状况),salary(收入),health(健康状况),house(房产状况),应用数据+决策树模型,可生成预测数据及其分类概率;

OK,轻轻运行,结果数据得出:

Ok。。。。。。。。。。。。。。。。。。。。。。。。
|