python(pandas + numpy)数据分析的基础
数据 NaN 值排查,统计,排序
data.isnull()
- data 是一个 dataframe 的结构
np.sum(data.isnull())
- 找到缺失值的总数
data.sort_values()
- 按照某个列进行数据的排序,
- 或者按照某两个列进行排序
四种基本统计方法
- 最大值 np,max() ,最小值 np.min() ,均值 np.mean() ,分位数 np.quantile()
分组 data.groupby
- 分组: df.groupby() ,按照某个字段进行分组;返回一个分组后的对象df.groupby(by=[...])df.groupby(by=[...]) 可以按照多个字段进行分组,形成层次化的索引结构
聚合 data.agg()
- 聚合方法灵活,能够对分组对象进行相同的聚合,也可以选择不同的聚合方法
- 聚合 data.agg([np.mean, np.max]) 聚合的是统计方法,例如求最大值和最小值的方法;注意进行聚合的数据首先是要进行分组才能够进行聚合。
- 聚合还可以根据具体的字段通过字典的方式设置不同的统计方法: grouped.agg({字段名:统计方法名})
- apply 可以进行聚合运算,也可以进行按行运算
- apply 的参数还可以是一个 lambda 函数对 df 中的某个 series 进行操作
transform
- 返回与数据同样长度的行,无法进行聚合
pd.pivot_table() :