GOOD MEAN FINAL PROJECT · 2018-02-19 ·...
Transcript of GOOD MEAN FINAL PROJECT · 2018-02-19 ·...
중신용자의신용평가정확도향상을위한연체예측모형
국민대학교빅데이터MBA
GOOD MEAN FINAL PROJECT
주제
학과
이름
GOOD MEAN 분석진행순서 : )
1)
2)
3)
분석 개요
분석 과정
분석 결과
분석 목표
활용 시나리오
활용 데이터
분석 모형 개발적용기법1적용기법2성능평가방법
원변수파생변수
분석 절차
분석 모형 설명
분석 배경
최종 모형 선정
1.1분석 배경 – 빈약한 중금리대출 시장
분석개요
pptbizcam.co.kr
Check
0
5
10
15
20
25
30
35
40
45
유독빈약한중금리대출시장
< 업권별신용대출평균금리 >
한국은행 금융안정보고서(‘15.12월)
시중은행~5%
중금리대출10~15%
상호금융5~10%
카드/캐피탈15~20%
저축은행20~25%
대부업25%~
고신용자는 5%이하, 중,저 신용자는 20% 이상의 금리로중금리 대출 시장이 빈약한 개인신용대출 시장이 형성
1.1 분석 배경 – 중금리 대출 모형의부재
분석개요
pptbizcam.co.kr
Check
-주재성우리금융경영연구소대표-
“ 우리대부업체이용자의47% 가량은신용등급4~6등급의고객이다.
조금만더신용등급을관리하면은행대출을받을수있는사람들이
대부업을이용하고있는상황이다“-대부업체관계자-
"은행권이중금리대출에나서지않는것은평판문제도있지만
기본적으로저신용자등급데이터가부족해 부실이날까두려워하기때문“
http://biz.chosun.com/site/data/html_dir/2015/06/16/2015061601966.html?main_hot1
중신용자는 은행권 대출 거절 시 고금리 대출을 이용하게 될 수밖에 없는 구조
1.1 분석 배경 – 기존 신용평가방식의한계
분석개요
Check은행의기존신용평가방식으로는중신용고객의정확한상환능력/의지를파악하기에한계가있음
은행中신용고객
< 은행의기존신용평가방식의한계 >
빅콘테스트 2017 한화생명 설명회자료
보수적인신용평가
적정수준의대출금리니즈존재
금융거래실적부족
금융거래Data 활용
중금리대출경험부족
pptbizcam.co.kr
1.1 분석 배경 – 데이터 선정 배경
분석개요
pptbizcam.co.kr
Check
빅콘테스트 2017 한화생명 설명회자료
그렇다면금융거래실적이부족한
중신용고객을평가할때
어떤데이터를활용해야할까?
<연체경험을파악할수있는데이터>
조건1. 누구나흔히이용하고
조건2. 매월납입금액이존재하고
조건3. 납입금액이소액인데이터
보험데이터
통신데이터
1.2 분석 목표 – 새로운 데이터를활용한연체 예측 모형 개발
분석개요
pptbizcam.co.kr
Check
빅콘테스트 2017 한화생명 설명회자료
금융거래Data
(SCI평가정보)
보험Data
(한화생명)
통신Data
(SK Telecom)
금융거래Data
(SCI평가정보)
중신용고객의정확한상환능력/의지를파악하기위하여
기존의금융거래Data에보험, 통신Data를포함한연체예측모형을개발
2.1 분석 절차
분석과정
pptbizcam.co.kr
Check
Data수집 Data전처리 활용시나리오모형설계 모형개발
통신데이터
금융데이터
보험데이터
Decision Tree
Gradient Boosting
XG BOOST
원변수
파생변수
최종시나리오Gradient Boosting
2.2 활용 데이터 – 원변수
분석과정
pptbizcam.co.kr
Check
기본Data
변수영문명 변수명 변수설명
AGE 연령 한화생명및SKT고객이면서대출정보가있는고객의연령
SEX 성별 한화생명및SKT고객이면서대출정보가있는고객의성별: 1(남자), 2(여자)
OCCP_NAME_G 직업 산출일기준대분류직업정보
CUST_JOB_INCM 추정소득 직업정보기반추정소득금액
HSHD_INFR_INCM 가구추정소득 가계합산추정소득
ACTL_FMLY_NUM 실가족원수 산출일기준입력된가족원수
LAST_CHLD_AGE 막내자녀나이 산출일기준입력된막내자녀의나이
MATE_OCCP_NAME_G 배우자직업 산출일기준배우자의대분류직업정보
2.2 활용 데이터 - 원변수
분석과정
pptbizcam.co.kr
Check
변수영문명 변수명 변수설명
BNK_LNIF_CNT 대출정보현재총건수[은행] 산출일기준은행권에서발생된총대출건수
CPT_LNIF_CNT 대출정보현재총건수[카드사/할부사/캐피탈] 산출일기준카드사/할부사/캐피탈에서발생된총대출건수
SPART_LNIF_CNT 대출정보현재총건수[2산업분류] 산출일기준2산업분류에서발생된총대출건수
ECT_LNIF_CNT 대출정보현재총건수[기타] 산출일기준기타금융권에서발생된총대출건수
TOT_LNIF_AMT 대출정보현재총금액 산출일기준총대출금액
TOT_CLIF_AMT 대출정보현재총금액[신용대출] 산출일기준총신용대출금액
BNK_LNIF_AMT 대출정보현재총금액[은행] 산출일기준은행권에서발생한총대출금액
CPT_LNIF_AMT 대출정보현재총금액[카드사/할부사/캐피탈] 산출일기준 카드사/할부사/캐피탈에서발생한총대출금액
CRDT_OCCR_MDIF 대출정보최근개설일로부터현재까지유지기간[신용대출] 신용대출개좌개설일부터산출일까지유지개월수
SPTCT_OCCR_MDIF 대출정보최근개설일로부터현재까지유지기간[2산업분류-신용대출] 2산업분류에서신용대출개좌개설일부터산출일까지유지개월수
CRDT_CARD_CNT 개설정보현재신용개설총건수[신용카드] 산출일기준신용카드발급수
CTCD_OCCR_MDIF 개설정보최초개설일로부터현재까지유지기간[신용카드] 신용카드개설일부터산출일까지유지개월수
CB_GUIF_CNT 보증정보현재보증총건수 산출일기준총보증건수
CB_GUIF_AMT 보증정보현재보증총금액 산출일기준총보증금액
금융거래Data
(SCI평가정보)
2.2 활용 데이터 - 원변수
분석과정
pptbizcam.co.kr
Check
변수영문명 변수명 변수설명
CUST_FMLY_NUM 보험가입가족원수 산출일기준보험가입이력이있는가족원수
CRDT_LOAN_CNT 신용대출건수 산출일기준한화생명에서실행된총신용대출건수
MIN_CNTT_DATE 최초대출날짜 한화생명에서실행된최초의신용대출의년월
TOT_CRLN_AMT 한화생명신용대출금액 산출일기준한화생명에서실행된총신용대출금액
TOT_REPY_AMT 한화생명신용상환금액 산출일기준한화생명에서실행된총신용대출금액중총상환된상환금액
CRLN_OVDU_RATE 신용대출연체율 한화생명에서실행된신용대출이후경과월수중연체경험월수의비율
CRLN_30OVDU_RATE 30일이내신용대출연체율 한화생명에서실행된30일이내연체경험월수/ 30일이내신용대출월수*100
LT1Y_CLOD_RATE 최근1년신용대출연체율 한화생명에서실행된최근1년연체경험월수/ 최근1년신용대출월수*100
STRT_CRDT_GRAD 최초신용등급 한화생명에서실행된가장오래된대출시점의신용등급
LTST_CRDT_GRAD 최근신용등급 한화생명에서실행된가장최근대출시점의신용등급
PREM_OVDU_RATE 보험료연체율 총납입보험료횟수중연체한보험료횟수의비율
LT1Y_PEOD_RATE 최근1년보험료연체율 최근1년연체납입횟수/총납입횟수*100
AVG_STLN_RATE 평균약대율 월별약관대출가능금액중약관대출받은금액의비율의연중평균
STLN_REMN_AMT 약관대출가능잔액 약관대출받은금액
보험Data
(한화생명)
2.2 활용 데이터 - 원변수
분석과정
pptbizcam.co.kr
Check
변수영문명 변수명 변수설명
LT1Y_STLN_AMT 최근1년약대금액 최근1년약관대출받은금액
LT1Y_SLOD_RATE 최근1년약대연체율 최근1년약관대출연체경험월수/ 최근1년약관대출월수*100
GDINS_MON_PREM 非연금저축상품월납입보험료 유효한계약중납입중인보장성상품의월납환산보험료(일시납제외)
SVINS_MON_PREM 연금저축상품월납입보험료 유효한계약중납입중인저축성상품의월납환산보험료(일시납제외)
FMLY_GDINS_MNPREM 非가구연금저축상품월납입보험료 가계합산기준유효한계약중납입중인보장성상품의월납환산보험료(일시납제외)
FMLY_SVINS_MNPREM 가구非연금저축상품월납입보험료 가계합산기준유효한계약중납입중인저축성상품의월납환산보험료(일시납제외)
MAX_MON_PREM 최대월납입보험료 기준일이전납입한월납입보험료中최대보험료
TOT_PREM 기납입보험료 유효한계약의총납입보험료
FMLY_TOT_PREM 가구기납입보험료 가계합산기준유효한계약의총납입보험료
CNTT_LAMT_CNT 실효해지건수 계약해지또는실효난계약건수
LT1Y_CTLT_CNT 최근1년실효해지건수 최근1년계약해지또는실효난계약건수
AUTR_FAIL_MCNT 자동이체실패월수 산출일기준총자동이체실패월수
FYCM_PAID_AMT 가구총지급보험금액 가계합산보험금지급총액
FMLY_CLAM_CNT 가구총보험금청구건수 가계합산총보험금청구건수
FMLY_PLPY_CNT 가구만기완납경험횟수 가구단위만기까지보험료를완납한증번의갯수
보험Data
(한화생명)
2.2 활용 데이터 - 원변수
분석과정
pptbizcam.co.kr
Check
통신Data
(SK Telecom)
변수영문명 변수명 변수설명
AVG_CALL_TIME 월통화시간_분 월평균통화시간분단위
AVG_CALL_FREQ 월통화빈도 월평균통화횟수
TEL_MBSP_GRAD 멤버쉽등급 SKT멤버쉽등급
ARPU 가입자매출_원 월기준회선당평균수익금
MON_TLFE_AMT 납부요금_원 월기준서비스납부요금
CBPT_MBSP_YN 결합상품가입여부 인터넷, TV등결합상품가입여부: Y(가입) , N(미가입)
MOBL_FATY_PRC 단말기가격_원 사용중인핸드폰단말기출고가액
TEL_CNTT_QTR 가입년월_분기 SKT가입년월_분기단위: YYYYQ
NUM_DAY_SUSP 정지일수 회선의사용정지일수
CRMM_OVDU_AMT 당월연체금액_원 해당월납부요금의연체금액
TLFE_UNPD_CNT 납부일미준수횟수 핸드폰납부요금의납입일미준수한횟수
LT1Y_MXOD_AMT 년간최대연체금액_원 산출일기준최근1년이내납부요금연체금액中최대연체금액
PAYM_METD 납부방법 납부요금의납부방법
LINE_STUS 회선상태 산출일기준회선의상태: S(정지), U(사용)
MOBL_PRIN 남은할부금_원 산출일기준남아있는핸드폰단말기할부원금
2.2 활용 데이터 – 파생변수를위한 가설 설정
분석과정
pptbizcam.co.kr
Check
<파생변수생성을위한가설설정>
가설1.고금리대출을받는사람은연체할가능성이높다
가설2.대출건수가많은사람은연체할가능성이높다
가설3.소득대비대출금액이많은사람은연체할가능성이높다
가설4.소득대비신용카드이용량이많은사람은연체할가능성이높다
가설5.신용등급이하락한고객은연체할가능성이높다
가설6.연체경험이많은고객은연체할가능성이높다
2.2 활용 데이터 - 파생변수
분석과정
pptbizcam.co.kr
Check
가설1. 고금리대출을받는사람은연체할가능성이높다.
총대출건수가중치여부
총대출건수
가설2. 대출건수가많은사람은연체할가능성이높다.
가설3. 소득대비대출금액이많은사람은연체할가능성이높다.
총부채상환
비율(DTI)
저금리대출비율 고금리대출비율 고금리대출여부저금리대비
고금리대출비율
2.2 활용 데이터 - 파생변수
분석과정
pptbizcam.co.kr
Check
가설4. 신용카드이용량이많은사람은연체할가능성이높다.
가설5. 신용등급이하락한고객은연체할가능성이높다.
가설6. 연체경험이많은고객은연체할가능성이높다
총 부채 상환
비율(DTI)
신용카드
이용량
신용등급
변화량
총연체율당월연체
금액 비율
최고연체
금액비율실패횟수
2.2 활용 데이터 – 파생변수
분석과정
변수 정의
상대적으로 낮은 금리를 가지는 신용대출과 은행대출금액이 전체 대출 금액에서 차지하는 비중을 나타냄
Check
저금리대출비율
연체자가 미연체자보다저금리 대출을 10%이상 적게 받음
가설1. 고금리 대출을 받는 사람은 연체할 가능성이 높다
분석과정
변수 정의
상대적으로 높은 금리를 가지는 카드사/할부사/캐피탈 대출금액이 전체 대출 금액에서 차지하는 비중을 나타냄
Check
고금리대출비율
미연체자가 연체자보다고금리 대출을 약 8% 적게 받음
가설1. 고금리 대출을 받는 사람은 연체할 가능성이 높다2.2 활용 데이터 – 파생변수
분석과정
변수 정의
은행, 카드사/할부사/캐피탈, 2산업 분류, 기타 등 모든 대출 건수를 합한 총 건수
Check
총대출건수
연체자가 미연체자보다 2건 이상 25% 이상 비율 차이남=> 총 대출 건수가 많을 수록 연체일 확률이 높다
※ 0건인 경우는 제외
가설2. 대출 건수가 많은 사람은 연체할 가능성이 높다.2.2 활용 데이터 – 파생변수
분석과정
변수 정의
대출 원금과 이자가 개인의 연소득에서 차지하는 비중을 계산한 것으로 대출상환 능력을 파악하기 위한 파생변수
Check
DTI
(총부채상환율)
연체자는 미연체자 보다 DTI값이 큰비율이 상당히 높음-> DTI가 높으면 연체일 확률이 높다
가설3. 소득대비 대출금액이 많은 사람은 연체할 가능성이 높다.2.2 활용 데이터 – 파생변수
분석과정
변수 정의
신용카드의 총 건수와 신용카드의 유지기간을 곱하여 고객의 신용카드 이용량을 파악함
Check
신용카드이용량
연체자가 미연체자들보다 카드 이용량이 높아질수록 비율이 줄어듬-> 높은 카드 사용량은 미연체자일 확률이 높다
가설4. 신용카드 이용량이 많은 사람은 연체할 가능성이 높다2.2 활용 데이터 – 파생변수
분석과정
변수 정의
최근 신용등급에서 최초 신용등급을 뺀 값
값이 클수록 연체 가능성이 낮고 값이 작을 수록 연체 가능성이 높다는 가정
Check
신용등급
변화량
신용등급이 7-8등급 하락한 경우에연체자가 미연체자 보다 약 3%정도 높음=> 신용등급 하락 폭이 클수록 연체 가능성이 높다
가설5. 고금리 대출을 받는 사람은 연체할 가능성이 높다2.2 활용 데이터 – 파생변수
ㅂ
분석과정
변수 정의
최근 1년 신용대출 연체율 + 보험료 연체율+ 최근 1년 약대 연체율을 모두 더함
모든 대출 상품에서의 연체율을 파악하는 파생변수
Check
총연체율
연체자는 연체율이 높을수록미연체자에 비해 비중이 높아짐
가설6. 연체 경험이 많은 고객은 연체할 가능성이 높다2.2 활용 데이터 – 파생변수
분석과정
변수 정의
납부요금이 0원인 사람을 제외하고 통신비 납부 요금 중 당월 연체 금액 비율.
비율이 높은 고객은 대출 연체 가능성이 높을 것이라는 가정
Check
당월연체
금액비율
당월 연체 금액 비율이 1인 경우연체자가 미연체자보다 6%정도 높다=> 당월 연체금액 비율이 높을수록 연체자일 확률이 높다
2.2 활용 데이터 – 파생변수 가설6. 연체 경험이 많은 고객은 연체할 가능성이 높다
분석과정
변수 정의
납부 요금이 0원인 사람을 제외하고 통신비 납부 요금 중 연간 최대 연체 금액의 비율을 파악하여
비율이 높은 고객은 대출 연체 가능성이 높을 것이라는 가정하에 파생변수 생성
Check
최고연체
금액비율
최고 연체 금액 비율이 1인 경우연체자가 미연체자보다 약 6%정도 높다 따라서 최고 연체 금액이 높을 수록 연체일 확률이 높다
2.2 활용 데이터 – 파생변수 가설6. 연체 경험이 많은 고객은 연체할 가능성이 높다
2.2 활용 데이터
분석과정
pptbizcam.co.kr
Check
고객ID TARGET 기본DATA 금융DATA 보험DATA 통신DATA
1 0 (연체미발생)
2 1 (연체발생)
…
전체 데이터 건수 = 100,233 명연체자 수 = 4,287 명전체 대출자 대비 연체자 비율 = 4.28 %
< DATA 형태>
2.3. 분석 모형 개발 – 적용 기법 1
분석과정
pptbizcam.co.kr
Check
4.2%
95.8%
연체자
연체자가 전체의 4.2% 밖에 되지 않게 때문에 연체자 데이터를
복제하여 매 반복 시마다 연체자 수를 2배씩 늘려가며 학습하며
연체자의 패턴 인식률을 높인다.
<학습 회수별 Training set의 연체자 비율>
Epoch 1 : 3809 / 90209 (4.2 %)
Epoch 2 : 7618 / 94018 (8.1 %)
Epoch 3 : 11427 / 97827 (11.7 %)
Epoch 4 : 15236 / 101636 (15.0 %)
Epoch 5 : 19045 / 105445 (18.0 %)
……
https://bi.snu.ac.kr/Publications/Journals/Domestic/KIISE_CPL_20_10_KMKim.pdf
< 불균형데이터처리를위한과표본화기반앙상블학습기법>
2.3. 분석 모형 개발 – 적용 기법 2
분석과정
pptbizcam.co.kr
Check
머신러닝 장점 단점
Decision Tree-분석결과가Tree 구조로표현되기때문에
이해하기쉬우며처리속도가빠르다.
-데이터가특정변수에수직/수평적으로구분되지못
하는경우분류성능이낮다.
-두변수가정보력이비슷하면Tree 구성이매번바뀐
다.
Gradient
Boosting
-이전학습의결과가다음학습에영향을주는방식으
로over fitting에강하다.
-Hyper parameter를통해오차를보정함으로써좋은
성능을나타낸다.
-분석결과에대한해석이불가능하다.
-적절한Hyper parameter를찾기위해많은시간이소
모될수있다.
XGBoost
-Gradient boosting 알고리즘사용하며,
regularization및missing values 자동처리해준다.
-Loss값기준으로 early stopping 적용이가능하다.
-다른기법에비해사용하기어렵다.
2.3. 분석 모형 개발 – 성능 평가 방법
분석과정
pptbizcam.co.kr
Check
구분
예측(Predicted)
정상고객 연체고객
실제(Actual)
정상고객 True/Negative False/Positive
연체고객 False/Negative True/Positive
• 한 쪽으로 치우친 불균형 데이터이기 때문에 정확도(accuracy) 지표를 사용하지 않는다.
• 여기서는 정밀도(precision)와 재현율(recall)의 조화 평균인 F1 score를 성능 지표로 사용한다.
2.4. 분석모형 설명 – Decision Tree Classifier
분석과정
pptbizcam.co.kr
Check
Epoch 1 - F1 : 0.285
-2금융권 신용대출 유지 개월 수-당월 연체금액-신용대출 유지 개월 수-신용카드 개설 건수
Epoch 3 - F1 : 0.307
-신용대출 유지 개월 수-2금융권 신용대출 유지 개월 수-신용카드 개설 건수-납부요금 대비 연간최대연체금액 비율
Epoch 5 - F1 : 0.321
-신용대출 유지 개월 수-2금융권 신용대출 유지 개월 수-신용카드 개설 건수-납부요금 대비 연간최대연체금액 비율
주요 변수는 거의 비슷하지만연체자의 비율이 높아짐에 따라 Test set에 대한 F1 score가 높아진다.
< 연체자예측에대한변수의중요도>
2.4. 분석모형 설명 – Gradient Boosting Classifier
분석과정
pptbizcam.co.kr
Check
Epoch 1 (F1 : 0.36) Epoch 2 (F1 : 0.452)
Epoch 4 (F1 : 0.492)
1금융권대출금액 대비 2금융권 대출금액 비율전체 대출 건수금융권별 대출 건수에 대한 회귀 점수2금융권 신용대출 유지 개월 수신용카드 개설 건수당월연체금액(통신비)년간최대연체금액(통신비)납부요금 대비 당월연체금액 비율납부요금 대비 연간최대연체금액 비율
주요 변수 요약
< 연체자예측에대한변수의중요도>
2.4. 분석모형 설명 – Gradient Boosting Classifier
분석과정
pptbizcam.co.kr
Check
0.36
0.4520.486 0.492 0.488 0.488 0.493 0.485 0.476
0
0.1
0.2
0.3
0.4
0.5
0.6
1 2 3 4 5 6 7 8 9 epoch
F1 score
< F1 score 변화추세 (GradientBoostingClassifier) >
2.4. 분석모형 설명 – XGBoost Classifier
분석과정
pptbizcam.co.kr
Check
Epoch 7 (F1 : 0.451)
-신용카드 개설 건수-남은 할부금 (통신비)-신용대출 유지 개월 수-대출 총금액-2금융권 신용대출 유지 개월 수-신용카드 총 건수 * 신용카드 유지기간
< 연체자예측에대한변수의중요도>
2.4. 분석모형 설명 – XGBoost Classifier
분석과정
pptbizcam.co.kr
Checkepoch
F1 score 0.218
0.351
0.4080.444 0.44 0.449 0.451 0.44 0.429
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
1 2 3 4 5 6 7 8 9
< F1 score 변화추세 (XGBoost Classifier) >
2.5 최종 모형 선정 – Gradient Boosting Classifier
분석과정
pptbizcam.co.kr
Check
모형 Best F1 score
Decision Tree 0.321
Gradient Boosting 0.492
XGBoost 0.451
<모형의성능비교>
최종모형
고객 연체예측 연체확률
A 0 0.392
B 1 0.857
…
X 0 0.413
Y 0 0.248
Z 1 0.629
<모형적용결과>
최종 모형은 F값이 가장 높은 Gradient Boosting로 선택했고,모형을 통해 고객의 연체 여부 및 연체확률을 예측할 수 있다.
2.5 최종 모형 선정 - Gradient Boosting Classifier
분석과정
pptbizcam.co.kr
Check
< Gradient Boosting 모형의주요 변수>
당월 연체금액(통신비)년간 최대 연체금액(통신비)
납부요금 대비 연간 최대연체금액 비율납부요금 대비 당월 연체금액 비율
신용카드수 X 사용량
통신비연체관련변수 신용카드관련변수 대출관련변수
전체 대출 건수금융권 대비 2금융권 대출금액 비율
금융권 별 대출 건수에 대한 회귀 점수2금융권 신용대출 유지 개월 수
3.1 활용 시나리오
분석결과
pptbizcam.co.kr
Check
대출 연체 예측 모형
고객명 연체예측 연체확률
홍길동 미연체 25%
신청평점 미달로 대출 불가
낮은 연체확률로 대출 가능
기존신용평가모형
고객 정보이름 : 나대출나이 : 25살[우량사유] 채무불이행 정보 없음[우량사유] 연체이력 없음[우량사유] 채무상환 부담 없이 신용활동 진행 중[불량사유] 신용거래기간 1년이하로 짧음[우량사유] 통신료 연체 없음[우량사유] 신용카드 연체 없이 우량하게 사용중임