R语言实战：个人贷款违约预测模型（基于银行的个人金融业务数据进行分析）

2023-07-04 09:48:44 模型实战进行分析违约金融业务

一、项目背景

本项目使用R语言对银行的个人金融业务数据进行分析，以对个人贷款是否违约进行预测。帮助业务部门及时发现问题，以避免损失。

二、数据说明

本项目数据集来自《数据科学实战：Python篇》。数据集包含8个表：账户表accounts、信用卡表card、客户信息表clients、权限分配表disp、人口地区统计表district、贷款表loans、支付订单表order、交易表trans。此数据集数据较为丰富，通过分析这份数据可以获取与银行服务相关的业务知识。

账户表（Accounts）：4500条记录

信用卡表（card）：892条记录

顾客信息表（clients）：5369条记录

权限分配表（Disp）：5369条记录

地区表（district）：77条记录

贷款表（loans）：682条记录

订单表（order）：6471条记录

交易表（trans）：1056320条记录

各表间关系详见关系实体图（E-R图）：

三、数据处理

该项目问题是典型的二分类问题，被解释变量为二分类变量，因此选择分类模型中常使用的算法逻辑回归构建模型。

用贷款（Loans）表中的还款状态（status）变量构建被解释变量（目标变量），还款状态（status）变量记录了客户的贷款偿还情况，其中A代表合同终止且正常还款，B代表合同终止但是未还款，C代表合同未结束且正常还款，D代表合同未结束但是已经拖欠贷款了。出现贷款拖欠则用1标识，如果始终没有出现违约，则设置为0。

#数据导入
loans<-read.csv("E:\\存档\\数据科学实战：Python篇\\案例\\loans.csv",header=TRUE,stringsAsFactors=F)
accounts<-read.csv("E:\\存档\\数据科学实战：Python篇\\案例\\accounts.csv",header=TRUE)
card<-read.csv("E:\\存档\\数据科学实战：Python篇\\案例\\card.csv",header=TRUE,stringsAsFactors=F)
clients<-read.csv("E:\\存档\\数据科学实战：Python篇\\案例\\clients.csv",header=TRUE,stringsAsFactors=F)
disp<-read.csv("E:\\存档\\数据科学实战：Python篇\\案例\\disp.csv",header=TRUE,stringsAsFactors=F)
district<-read.csv("E:\\存档\\数据科学实战：Python篇\\案例\\district.csv",header=TRUE,stringsAsFactors=F)
trans<-read.csv("E:\\存档\\数据科学实战：Python篇\\案例\\trans.csv",header=TRUE,stringsAsFactors=F)
order<-read.csv("E:\\存档\\数据科学实战：Python篇\\案例\\order.csv",header=TRUE,stringsAsFactors=F)

#数据处理
#数据类型转换
accounts$date<-as.Date(accounts$date)
card$issued<-as.Date(card$issued)
card$type<-as.factor(card$type)
clients$sex<-as.factor(clients$sex)
clients$birth_date<-as.Date(clients$birth_date)
disp$type<-as.factor(disp$type)
loans$date<-as.Date(loans$date)
loans$status<-as.factor(loans$status)
trans$date<-as.Date(trans$date)
#去除千分位和美元符号,然后转换成数值类型
library(stringr)
trans$amount<-gsub(",","",trans$amount)
trans$balance<-gsub(",","",trans$balance)
trans$amount<-as.numeric(str_sub(trans$amount,2,nchar(trans$amount)))
trans$balance<-as.numeric(str_sub(trans$balance,2,nchar(trans$balance)))

#构建被解释变量
head(loans)
str(loans)
loans$New_status[loans$status=='A']<-'0'
loans$New_status[loans$status=='B']<-'1'
loans$New_status[loans$status=='C']<-'2'
loans$New_status[loans$status=='D']<-'1'
loans$New_status<-as.factor(loans$New_status)

相关文章

R语言实战：个人贷款违约预测模型 （基于银行的个人金融业务数据进行分析）

R语言实战：个人贷款违约预测模型（基于银行的个人金融业务数据进行分析）