STEP 1: Import ALL the things!¶

import numpy as np
import pandas as pd 
## dealing with categorical variables
from sklearn.preprocessing import LabelEncoder 
import os
import warnings
warnings.filterwarnings('ignore')
import matplotlib.pyplot as plt
import seaborn as sns

app_train = pd.read_csv('application_train.csv')
app_train.shape

(307511, 122)

app_test = pd.read_csv('application_test.csv')

STEP 2: EDA¶

2a. What's the distribution of target column?¶

app_train['TARGET'].value_counts()

0    282686
1     24825
Name: TARGET, dtype: int64

2b. Are there missing values?¶

df_na = pd.DataFrame(app_train.isna().sum())
df_na['percent'] = (df_na[0] / app_train.shape[0]) *100
df_na.sort_values(by="percent", ascending = False)

2bi -- Options for handling missing data¶

imputation
XGBoost

2c. How will we handle our categorical variables?¶

One-hot encoding?
Labels?

2d. What should we do with outliers?¶

STEP 3: Find relationships!¶

correlations = app_train.corr()['TARGET'].sort_values()

3a. Correlations¶

Positive Correlations¶

correlations.tail(20)

OBS_30_CNT_SOCIAL_CIRCLE       0.009131
CNT_FAM_MEMBERS                0.009308
CNT_CHILDREN                   0.019187
AMT_REQ_CREDIT_BUREAU_YEAR     0.019930
FLAG_WORK_PHONE                0.028524
DEF_60_CNT_SOCIAL_CIRCLE       0.031276
DEF_30_CNT_SOCIAL_CIRCLE       0.032248
LIVE_CITY_NOT_WORK_CITY        0.032518
OWN_CAR_AGE                    0.037612
DAYS_REGISTRATION              0.041975
FLAG_DOCUMENT_3                0.044346
REG_CITY_NOT_LIVE_CITY         0.044395
FLAG_EMP_PHONE                 0.045982
REG_CITY_NOT_WORK_CITY         0.050994
DAYS_ID_PUBLISH                0.051457
DAYS_LAST_PHONE_CHANGE         0.055218
REGION_RATING_CLIENT           0.058899
REGION_RATING_CLIENT_W_CITY    0.060893
DAYS_BIRTH                     0.078239
TARGET                         1.000000
Name: TARGET, dtype: float64

Negative Correlations¶

correlations.head(20)

EXT_SOURCE_3                 -0.178919
EXT_SOURCE_2                 -0.160472
EXT_SOURCE_1                 -0.155317
DAYS_EMPLOYED                -0.044932
FLOORSMAX_AVG                -0.044003
FLOORSMAX_MEDI               -0.043768
FLOORSMAX_MODE               -0.043226
AMT_GOODS_PRICE              -0.039645
REGION_POPULATION_RELATIVE   -0.037227
ELEVATORS_AVG                -0.034199
ELEVATORS_MEDI               -0.033863
FLOORSMIN_AVG                -0.033614
FLOORSMIN_MEDI               -0.033394
LIVINGAREA_AVG               -0.032997
LIVINGAREA_MEDI              -0.032739
FLOORSMIN_MODE               -0.032698
TOTALAREA_MODE               -0.032596
ELEVATORS_MODE               -0.032131
LIVINGAREA_MODE              -0.030685
AMT_CREDIT                   -0.030369
Name: TARGET, dtype: float64

app_train['DAYS_BIRTH'] = abs(app_train['DAYS_BIRTH'])
plt.style.use('fivethirtyeight')
plt.hist(app_train['DAYS_BIRTH'] / 365, edgecolor = 'k', bins = 25)
plt.title('Age of Client'); plt.xlabel('Age (years)'); plt.ylabel('Count');

app_train['DAYS_LAST_PHONE_CHANGE'] = abs(app_train['DAYS_LAST_PHONE_CHANGE'])
plt.style.use('fivethirtyeight')
plt.hist(app_train['DAYS_LAST_PHONE_CHANGE'] / 365, edgecolor = 'k', bins = 25)
plt.title('Days Since Phone Change'); plt.xlabel('Days'); plt.ylabel('Count');

type(correlations.tail(20))

pandas.core.series.Series

high_corr = list(correlations.tail(20).axes[0])
high_corr

['OBS_30_CNT_SOCIAL_CIRCLE',
 'CNT_FAM_MEMBERS',
 'CNT_CHILDREN',
 'AMT_REQ_CREDIT_BUREAU_YEAR',
 'FLAG_WORK_PHONE',
 'DEF_60_CNT_SOCIAL_CIRCLE',
 'DEF_30_CNT_SOCIAL_CIRCLE',
 'LIVE_CITY_NOT_WORK_CITY',
 'OWN_CAR_AGE',
 'DAYS_REGISTRATION',
 'FLAG_DOCUMENT_3',
 'REG_CITY_NOT_LIVE_CITY',
 'FLAG_EMP_PHONE',
 'REG_CITY_NOT_WORK_CITY',
 'DAYS_ID_PUBLISH',
 'DAYS_LAST_PHONE_CHANGE',
 'REGION_RATING_CLIENT',
 'REGION_RATING_CLIENT_W_CITY',
 'DAYS_BIRTH',
 'TARGET']

high_corr_for_graphs = ['CNT_FAM_MEMBERS',
 'CNT_CHILDREN',
 'AMT_REQ_CREDIT_BUREAU_YEAR',
 'OWN_CAR_AGE',
 'DAYS_REGISTRATION',
 'DAYS_ID_PUBLISH',
 'DAYS_LAST_PHONE_CHANGE',
 'DAYS_BIRTH']

for col in high_corr_for_graphs:
#   print(app_train[col].value_counts())
#   print(app_train[col].dtype)
    df = app_train.copy()
    df[col] = abs(df[col])
    plt.style.use('fivethirtyeight')
    plt.hist(df[col] / 365, edgecolor = 'k', bins = 25)
    plt.title(col); plt.xlabel('x'); plt.ylabel('Count');
    plt.show()

	0	percent
COMMONAREA_MEDI	214865	69.872297
COMMONAREA_AVG	214865	69.872297
COMMONAREA_MODE	214865	69.872297
NONLIVINGAPARTMENTS_MODE	213514	69.432963
NONLIVINGAPARTMENTS_AVG	213514	69.432963
NONLIVINGAPARTMENTS_MEDI	213514	69.432963
FONDKAPREMONT_MODE	210295	68.386172
LIVINGAPARTMENTS_MODE	210199	68.354953
LIVINGAPARTMENTS_AVG	210199	68.354953
LIVINGAPARTMENTS_MEDI	210199	68.354953
FLOORSMIN_AVG	208642	67.848630
FLOORSMIN_MODE	208642	67.848630
FLOORSMIN_MEDI	208642	67.848630
YEARS_BUILD_MEDI	204488	66.497784
YEARS_BUILD_MODE	204488	66.497784
YEARS_BUILD_AVG	204488	66.497784
OWN_CAR_AGE	202929	65.990810
LANDAREA_MEDI	182590	59.376738
LANDAREA_MODE	182590	59.376738
LANDAREA_AVG	182590	59.376738
BASEMENTAREA_MEDI	179943	58.515956
BASEMENTAREA_AVG	179943	58.515956
BASEMENTAREA_MODE	179943	58.515956
EXT_SOURCE_1	173378	56.381073
NONLIVINGAREA_MODE	169682	55.179164
NONLIVINGAREA_AVG	169682	55.179164
NONLIVINGAREA_MEDI	169682	55.179164
ELEVATORS_MEDI	163891	53.295980
ELEVATORS_AVG	163891	53.295980
ELEVATORS_MODE	163891	53.295980
...	...	...
AMT_CREDIT	0	0.000000
AMT_INCOME_TOTAL	0	0.000000
FLAG_PHONE	0	0.000000
LIVE_CITY_NOT_WORK_CITY	0	0.000000
REG_CITY_NOT_WORK_CITY	0	0.000000
TARGET	0	0.000000
REG_CITY_NOT_LIVE_CITY	0	0.000000
LIVE_REGION_NOT_WORK_REGION	0	0.000000
REG_REGION_NOT_WORK_REGION	0	0.000000
REG_REGION_NOT_LIVE_REGION	0	0.000000
HOUR_APPR_PROCESS_START	0	0.000000
WEEKDAY_APPR_PROCESS_START	0	0.000000
REGION_RATING_CLIENT_W_CITY	0	0.000000
REGION_RATING_CLIENT	0	0.000000
FLAG_EMAIL	0	0.000000
FLAG_CONT_MOBILE	0	0.000000
ORGANIZATION_TYPE	0	0.000000
FLAG_WORK_PHONE	0	0.000000
FLAG_EMP_PHONE	0	0.000000
FLAG_MOBIL	0	0.000000
DAYS_ID_PUBLISH	0	0.000000
DAYS_REGISTRATION	0	0.000000
DAYS_EMPLOYED	0	0.000000
DAYS_BIRTH	0	0.000000
REGION_POPULATION_RELATIVE	0	0.000000
NAME_HOUSING_TYPE	0	0.000000
NAME_FAMILY_STATUS	0	0.000000
NAME_EDUCATION_TYPE	0	0.000000
NAME_INCOME_TYPE	0	0.000000
SK_ID_CURR	0	0.000000