飞道的博客

手把手教你从零到一,完成淘宝数据分析案例

386人阅读  评论(0)

淘宝数据分析案例

假设,老板是做服装的行业的。某一天,老板想上市自己T-shirt的产品,但在上市前需要知道,在我国主要的竞争对手在哪个省份以及T-shirt的主要定价属于什么区间。

拿到任务的你,进行第一步数据采集。思考了下,我应该先把淘宝网上卖T-shirt的卖家的信息爬取一遍,于是开心的打开淘宝官方网站,搜索T恤。

下面,你决定先明确爬取的目标的数据,决定爬取每个商品的标题,价格,位置和销量,保存为Excel文件来进行数据分析。

于是,你立刻用requests库进行访问,在url中传入T恤关键词进行搜索,返回的是json类型,想到用json标准库进行提取。
你凭借自己强大的编程能力,瞬间将代码写完,还在沾沾自喜的时候,刚运行,就出现了无法访问403,ip被封的场景。

这是你想到淘宝网的反扒比较厉害,于是决定在调试窗口中寻找cookie和user-agent,在请求头中加上自己网页访问的参数cookie和user-agent。

在一次又一次的调试中,终于,皇天不负好心人,爬取到了我们需要的原材料数据。

于是得到自己的原数据xlsx中,发现了爬取的数据有很多垃圾信息,需要进一步处理,比如,标题中有:【】,我们需要分析以省份为主,需要取出城市,同时在销量中:万+人收货,这是需要处理的。

html>


转载:https://blog.csdn.net/weixin_44510615/article/details/105393741
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场