风控建模常用pandas语句
pandas对象是Python常用的数据分析模块,它主要包括series对象,dataframe对象和index对象。每种对象都有自己所特有的方法和属性。今天小编更新下建模中常用的pandas语句。
导入pandas和numpy模块
import pandas as pd
import numpy as np
import os
查看并更改工作路径
pwd
os.chdir('更改的路径')
读入数据集
df = pd.read_csv(r'文件路径')
查看列数、行数
print(df1.columns.size,df.iloc[:,0].size)
查看列名
df.columns.tolist()
查看每个特征的类型
for col in fk_df.columns:
print(col, fk_df[col].dtype)
计算坏账率
badRate = df['target'].sum()/df['target'].count()
计算特征空值率
null_rate = 1-df.count()/df.shape[0]
保留空值率小于0.2的特征
cols = null_rate[null_rate<0.2].index.tolist()
查找数据集数值中型特征小于0的值并置为nan
def rep(x):
if type(x) !=str and x < 0:
print(x)
return np.nan
return x
df = df.applymap(rep)
设置新的索引
df = df.reindex()
检查常量特征
df1= df.loc[:,df1.apply(pd.Series.nunique) != 1]
查看是否有重复特征
len(set(list(df1.columns))) == df1.shape[1]
查看特征类别数
df1['education'].value_counts()
《
风控建模常用pandas语句》出自:
百味书屋链接地址:http://m.850500.com/news/185848.html 转载请保
留,谢谢!
闁绘劗鎳撻崵顔句沪閺囩偟纾婚柛蹇嬪妽閺嬶拷