数据分析打怪升级进度:day04
哈喽大家好啊,欢迎来到夜斗小神社数据分析打怪升级之路!
大家可以叫我小夜斗:“一枚想要做python领域强者的小萌新”
你会确信你终于在CSDN找到了能信赖的python知识分享者,这篇文章将会成为你未来数据分析的启蒙之路,听起来不错吧!
小夜斗致力于python语言知识分享,这些知识各个领域的大佬课程中的文档,内容干货非常多、相信大家学完之后定有所成!
现在关注小夜斗,将有更多干货分享,都能去大厂面试了!
一:数据分析相关概念
- 商业智能(BI):用数据预测用户购物行为
- 数据仓库(DW):顾客的消费行为存储仓库
- 数据挖掘(DM):根据个体消费行为分析总结规律
- 元数据:描述其它数据的数据,也称为"中介数据"(一套图书)
- 数据元:最小数据单元(一套图书中的书名、作者、等信息)
- KDD(Knowledge Discovery in Database):数据库中的知识发现
二:挖掘数据价值过程
输入数据 —— 数据预处理 —— 数据挖掘 —— 后处理 —— 价值信息
- 数据预处理:对参差不齐的数据转化为我们想要的格式,一般包括数据清洗(去除重复值、干扰数据以及填充缺失值)、数据集成(将数据统一存储)、数据变化(将数据转换到合适的区间、转换合适的属性)
下面是引用陈旸老师数据分析实战45讲关于一些概念的段子
不得不说这可真的是生动形象、一下子就都理解辽抽象概念!
商业智能会告诉你要追哪个?成功概率有多大?
数据仓库会说,我这里存储了这两个女孩的相关信息,你要吗?
其中每个女孩的数据都有单独的文件夹,里面有她们各自的姓名、生日、喜好和联系方式
等,这些具体的信息就是数据元,加起来叫作元数据。
数据挖掘会帮助你确定追哪个女孩,并且整理好数据仓库,这里就可以使用到各种算法,
帮你做决策了。
你可能会用到分类算法。御姐、萝莉、女王,她到底属于哪个分类?
如果认识的女孩太多了,多到你已经数不过来了,比如说 5 万人!你就可以使用聚类算法
了,它帮你把这些女孩分成多个群组,比如 5 个组。然后再对每个群组的特性进行了解,
进行决策。这样就把 5 万人的决策,转化成了 5 个组的决策。成功实现降维,大大提升了
效率。如果你想知道这个女孩的闺蜜是谁,那么关联分析算法可以告诉你。
如果你的数据来源比较多,比如有很多朋友给你介绍女朋友,很多人都推荐了同一个,你
就需要去重,这叫数据清洗;为了方便记忆,你把不同朋友推荐的女孩信息合成一个,这
叫数据集成;有些数据渠道统计的体重的单位是公斤,有些是斤,你就需要将它们转换成
同一个单位,这叫数据变换。
最后你可以进行数据可视化了,它会直观地把你想要的结果呈现出来。
三:用户画像建模
- 统一化(统一用户的唯一标识)
- 标签化(给用户打标签)
- 业务化(指导业务关联)
用户唯一标识是整个用户画像的核心,你可以通过特有的特征来选择唯一标识,账号姓名、手机号等
用户消费行为分析:用户标签(性别、年龄、收入、学历等)、消费标签(消费习惯、购买意向等)、行为标签(时间段、时长、频率)、内容分析(金融、娱乐、科技等)
不同的建模过程,需要打上不同的标签:
- 数据层:事实标签,作为客观记录
- 算法层:模型标签,作为分类标识
- 业务层:预测标签,业务关联结果
三:用户画像带来的业务价值
- 获客:精准营销获取客户
- 黏客:个性化推荐、搜索排序等
- 留客:关键点降低流失率
四:清洗任务为何如此重要
数据科学家80%时间花费在了清洗任务上
小夜斗给大家举一个很简单易懂的例子:高中三年,你留的汗水都是为了高考那三天!
没错,三年就是在为高考那三天做准备工作!
类似的道理:数据清洗任务是为数据挖掘做准备工作,得到你想要的的数据形式,以便更好的构造模型!
数据质量标准的四大规则:
- 完整性:是否存在空缺值
# 对年龄缺失值用平均年龄填充
df['Age'].fillna(df['Age'].mean(), inplace=True)
# 用当前列出现频率最高的数据填充
age_max = df['Age'].values_counts().index[0]
df['Age'].fillna(age_max, inplace=True)
# 删除空行
df.dropna(how='all', inplace=True)
-
全面性:平均值、最大值、最小值等
-
合法性:是否有未知值等
-
唯一性:重复数据
-
在这个星球上,你很重要,请珍惜你的珍贵! ~~~夜斗小神社
转载:https://blog.csdn.net/xtreallydance/article/details/116401980