飞道的博客

Datawhale 零基础入门数据挖掘-打卡day·2

259人阅读  评论(0)

Datawhale 零基础入门数据挖掘-数据分析

一、名词概念

1.数据分析

数据分析就是使用统计和概率来计算数据集中的趋势。 从海量数据中找出“真正的”趋势。

数据分析的三条法则

1.观察已有的数据,就要分析的内容和方向提出一定假设。比如想要证明pyhton是数据分析语言中最常用的编程语言。
2.根据假设选择一些可以用以辅助证明的数值或数值变化趋势。想证明1中的假设,可以分析目前主流数据分析比赛中各类编程语言使用频率的平均值。
3. 考虑中心趋势的例外情况。 比如你发现Python的使用频率确实是最高的,但是数据分析比赛中有几场比赛限定了只能使用Python进行编程,那种情况下Python编程语言的使用频率的平均值就要进行某些调整了。

2.EDA(Exploratory Data Analysis)

“所谓探索性数据分析(EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。"

也就是说EDA是对数据进行初步分析,主要通过探索性分析,辨析数据的模式与特点,从而选择合适的分析模型,找出数据的某些潜在规律。

3.脱敏数据

数据脱敏又称数据去隐私化或数据变形,是在给定的规则、策略下对敏感数据进行变换、修改的技术机制,能够在很大程度上解决敏感数据在非可信环境中使用的问题。根据数据保护规范和脱敏策略.对业务数据中的敏感信息实施自动变形.实现对敏感信息的隐藏。

二、实际操作

1.初步数据处理

以下代码均来自于Datawhale 零基础入门数据挖掘-Task2 数据分析一文。

数据挖掘:探索性数据分析(EDA)

A.载入各种数据科学以及可视化库,数据:

数据科学库 pandas、numpy、scipy;
可视化库 matplotlib、seabon;
其他;
pandas 官网 手册
numpy 官网 手册
各个库之间的关系参见 Numpy、Pandas、SciPy、Scikit-Learn、Matplotlib的关系以及学习资料

!!!!: 这里说一下作为一个小白遇到的一个问题。在 jupyter上我是直接把代码复制过去的,运行的时候碰到一个报错。于是我在报错的前面加了注释。如下图所示:


接着我就去查遇到 Module Not Found Error报错怎么办。按照提示我就打开了cmd 去使用 “ pip install ”安装。然后就发现报错了,如下图:

是我完全不懂Python安错了地方。
实际要打开的是


安装成功,问题解决。

#coding:utf-8
#导入warnings包,利用过滤器来实现忽略警告语句。
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno

path = './sj/'
Train_data = pd.read_csv(path+'used_car_train_20200313.csv', sep=' ')
Test_data = pd.read_csv(path+'used_car_testA_20200313.csv', sep=' ')

这里的 path = ‘./sj/’ 中的 ./sj/ 是指你在jupyter中存放你上传的数据的文件夹的名称。 这个知识点来自我们 挖数据搬砖头
小队中大佬的指点。

查看数据

##2) 简略观察数据(head()+shape)
Train_data.head(3).append(Train_data.tail(3))
Train_data.shape

这里说一下上面语句中的函数,分别是 .head() .append() .tail()
.head()读取数据前几行 默认5行,括号内输入几就显示几行
.tail()读取数据最后几行 默认5行,括号内输入几就显示几行
.append() 拼接数据
上个代码块中的 pd.read_csv(filename):从CSV文件导入数据
df.shape():查看行数和列数

总览数据概况

## 1) 通过describe()来熟悉数据的相关统计量
Train_data.describe()
## 2) 通过info()来熟悉数据类型
Train_data.info()

生成描述性统计,总结数据集分布的中心趋势,分散和形状,不包括NaN值。

常用函数介绍请参考 pandas官网参考手册 或者 pandas常用功能与函数介绍


转载:https://blog.csdn.net/ban1818/article/details/105116606
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场