（预测贷款用户是否会逾期）支持向量机和决策树的模型建立

数据是金融数据，我们要做的是预测贷款用户是否会逾期，表格中，status是标签：0表示未逾期，1表示逾期。【今天的任务】构建支持向量机和决策树模型进行预测（在构建部分数据需要进行缺失值处理和数据类型转换，如果不能处理，可以直接暴力删除）

明确需要进行处理的数据

需要直接删除的数据
Unnamed: 0 用户ID
trade_no：不知道是什么，可以分析下
bank_card_no：卡号
id_name：名字
‘source’ 提示xs 先去掉
需要离散化处理的数据（此处不涉及）
- reg_preference_for_trad
针对日期数据的处理(转换成年月日)（此处不涉及）
- first_transaction_time
- latest_query_time
- loans_latest_time
缺失值的填充
归一化处理所有数据

数据处理过程

import numpy as np
import pandas as pd
from sklearn.metrics import classification_report
from sklearn.cross_validation import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import f1_score,mean_squared_error
"""
# 逻辑回归预测贷款用户是否会逾期
"""
datanew = pd.read_csv('F:/ziliao/data/data1.csv', encoding='gbk')

"""
1.缺失值处理
"""
datanew=pd.DataFrame(datanew.fillna(0))
# 简单的缺失值处理
# datanew.replace(to_replace='0.', value=np.nan)
# 丢弃带有缺失值的数据
# datanew = datanew.dropna(axis=1, how='any')
data_columns = datanew.columns

"""
1.2 对reg_preference_for_trad 的处理  【映射】
    nan=0 境外=1 一线=5 二线=2 三线 =3 其他=4
"""
n = set(datanew['reg_preference_for_trad'])
dic = {}
for i, j in enumerate(n):
    dic[j] = i
datanew['reg_preference_for_trad'] = datanew['reg_preference_for_trad'].map(dic)
"""
1.3 数据集的切分
"""
X_train, X_test, y_train, y_test = train_test_split(datanew[data_columns[1:90]], datanew[data_columns[44]],test_size=0.3, random_state=666)
X_train.drop(["status","trade_no","bank_card_no","id_0me","source"],axis=1,inplace=True)
X_test.drop(["status","trade_no","bank_card_no","id_0me", "source"],axis=1,inplace=True)

数据的标准归一化

"""
1.4标准化数据，方差为1，均值为零
"""
standardScaler = StandardScaler()
X_train_fit = standardScaler.fit_transform(X_train)
X_test_fit = standardScaler.transform(X_test)

使用SVM进行预测

from  sklearn.svm import LinearSVC
lsvc = LinearSVC()
lsvc.fit(X_train_fit, y_train)
lsvc_predict = lsvc.predict(X_test_fit)
print("linear_svc准确率：", lsvc.score(X_test_fit, y_test))
print("f1_score准确率:",f1_score(y_test, lsvc_predict) ) #  f1_score准确率: 0.34146341463414637 SVC结果
print("r2_score准确率:",r2_score(y_test, lsvc_predict))  #

结果：
在这里插入图片描述

使用决策树进行预测

from sklearn.tree import DecisionTreeClassifier
dtc = DecisionTreeClassifier()
dtc.fit(X_train_fit, y_train)
dtc_predict = dtc.predict(X_test_fit)`
print("linear_svc准确率：", dtc.score(X_test_fit, y_test))
print("f1_score准确率:",f1_score(y_test, dtc_predict) )
print("mean_squared_error准确率:",mean_squared_error(y_test, dtc_predict))

结果：
在这里插入图片描述

（预测贷款用户是否会逾期）支持向量机和决策树的模型建立

（预测贷款用户是否会逾期）支持向量机和决策树的模型建立

明确需要进行处理的数据

数据处理过程

数据的标准归一化

使用SVM进行预测

使用决策树进行预测

猜你喜欢