你可能听说过数据分析是如何渗透我们的日常生活的。有了具有价值的数据,企业和企业之间更容易分析客户的行为和市场需求。
为了与亚马逊竞争,沃尔玛推出了一个基于统计分析和语义分析的搜索引擎“北极星”。北极星可以从社交媒体Facebook上向它发送关于pine /like /save产品的信息。因此,沃尔玛获得了对消费者的控制主导权。
受沃尔玛数据驱动策略的启发,我分析了用户登录频率(频率)与购买数量(商品)之间可能存在的相关性。
对于下面的内容,我将分享一些关于如何获取用户数据记录的说明,以及我对数据分析所做的工作。
第1部分,收集用户数据记录
在您的在线用户管理系统中可能有大量的用户记录数据。然而,我们需要将其导出为一个更结构化的数据集,并将其存储到本地以便进行进一步分析。对于大多数企业来说,通过编程从网站上抓取数据的成本可能很高。在这里,我可以与您分享我如何从我的在线管理系统抓取数据。通常,我使用八爪鱼采集器,这是一个为非程序员设计的自动web scraper/crawler。我们可以通过简单的拖拽和点击来轻松地收集目标数据。虽然担心隐私,我不能直接告诉你如何爬我自己的用户管理网站。但是,我将以Rakuten.com为例向您展示如何使用这个免费的web抓取工具抓取目标数据。操作界面如下。
搜集资料:
步骤1,输入目标URL。等待在内置浏览器中完全加载web页面。
步骤2,设置分页循环。八爪鱼采集器将自动跳转到下一页,为您提供完整的数据集。
步骤3,构建一个循环列表,包括包含目标数据字段的所有块,就像上面显示的红色框一样。
步骤4,开始捕获数据字段,如本例中的Name、Price、Click frequency。在本例中,我需要登录频率、购买商品编号和用户id。
步骤5,按照说明,点击下一步,选择“本地采集”。然后,您就可以看到如何在短时间内在数据提取面板中提取数据。
八爪鱼使我们能够提取各种格式的数据,包括但不限于Excel,数据库, CSV, HTML等。您可以根据需要选择导出的方式。
第二部分,数据分析
步骤1,假设
回到我的实验案例,我已经将我的全部数据导出到excel中。现在,我将深入探讨这两个因素(登录频率、商品数量)是否真的相互关联。收集到的数据被重新组织,如下表所示(注意:该表只显示了抓取的部分数据)。
利用这些抓取的数据,我们可以绘制一个散点图来观察这些假定的坐标点(登录频率、购买编号)是有规律分布的。最终的散点图如下所示。从购买数量分布中,我们可以看出大部分分散的点都集中在2 - 5个左右,我们可以将他们定义为高质量的用户。
这假设了一个场景,登录频率在2到5之间的人可能表现出更高的购买倾向。此外,通过观察红色趋势线,我们可以推测,在这个范围内登录频率越高,客户愿意购买的产品越多。然而,这只是一个主观的猜测。现在我们需要进一步验证我们的假设。
步骤2统计假设检验分析(p值法)
现在,让我们假设用户的登录频率和他们的购买数量之间可能存在潜在的相关性。
首先,我假设登录频率号在[2,5]之内。
接下来,通过筛选出2、3、5为特征登录频数,进行统计假设检验分析。
首先,我从整个数据集中随机抽取22条样本数据记录进行实验,如下表所示。
然后,您可以使用Matlab或任何其他可用的数据分析工具来进行单因素方差分析。请注意,我们设置了显著性水平α,犯了一个错误的概率是0.05。
最终结果如下。从方差分析中可以看出,这三个组在Avg上的表现是不同的,因此我们可以明确一个假设——样本组的差异是由实验采样误差引起的。
比较α的假定值,我们可以看到假定值小于α,因此我们可以拒绝零假设的备择假设,这些三组间存在差异。此外,我们还可以验证用户购买数量编号是否受到登录频率的影响。
通过以上的分析,我可以更加关注特定登录频率的目标用户,专注于我的目标和预算计划,也可以更好的服务于那些高质量的用户。
转载:https://blog.csdn.net/BAZHUAYUdata/article/details/101199994