清洗之缺失值处理—删除_飞道的博客

清洗之缺失值处理—删除

2021-04-09 15:47 927人阅读评论(0)

一、数据清洗
1、目的：让数据更加完整合理
2、为什么:数据可能存在缺失数据或异常数据，清洗就是对缺失的数据和异常的数据进行处理。
3、定义：数据清洗是通过删除，转换器，组合等方法，处理数据中的异常样本，为数据建模提供优质的数据的过程
4、包括：
缺失值处理
异常值处理
一.1、缺失值处理
1、缺失的原因：
人为疏忽、机器故障
人为刻意隐瞒部分数据
数据本身不存在
系统实时性高
历史局限性导致数据收集不完整
2、数据缺失类型：
完全随机缺失
随机缺失
非随机缺失
3、缺失值存在的形式：
np:nan 、" "、空格
4、缺失值处理的方式：
删除
填充
不处理
4.1 删除：
适用范围：数据量大，数据缺失值少的数据
方法：80%法则，缺失值超过总量20%，删除该属性
优点：操作简单
缺点：破坏数据的历史完整性
Python中用到的库：pandas

import  pandas  as  pd
data=pd. read_csv('. /data02.csv')
 #         读取数据    ('数据文件的路径')
 data. head()  #读取数据前五行
 print(type(data))   #查看数据类型
 data. describe()    # 查看详细信息 平均值，最大小值
 #进行绘画展示
 import missingno   #导入库
 import matplotlib. pyplot  as plt   #导入库
 missingno. bar(data)   #图画展示
 #80%删除
 drop_data=data. drop(axis=1,how=any,thresh=8000)
 # axis=1   按列删除  0 ：按行删除
 #thresh：完整度

转载：https://blog.csdn.net/m0_56975146/article/details/115480538

查看评论

飞道的博客

飞道的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章

清洗之缺失值处理—删除

* 以上用户言论只代表其个人观点，不代表本网站的观点或立场