一 前言
学习目标,是希望你能掌握如下一些可以写在简历上的技能。
- 熟练使用Python语言
- 掌握网络数据采集技术,熟练使用爬虫工具urllib、requests、xpath、beautifulsoup、re、selenium、aiohttp、scrapy以及scrapy-redis分布式爬虫框架等
- 熟悉网页语言html及javascripts,掌握json格式数据处理方法,拥有一定反爬经验积累,理解并熟练掌握各种反爬技巧(UA,IP代理,模拟登录,动态页面,验证码等)
- 了解手机app爬虫,掌握Fiddler抓包工具以及Airtest自动化测试框架的使用,安卓逆向
- 熟悉掌握数据存储技能MongoDB,MySQL,并配合Python使用,实现数据采集入库
- 熟悉多进程多线程异步,提高爬虫效率
- 熟悉scrapy+scrapyd+gerapy实现可视化爬虫程序调度
- 熟悉celery与apsheduler框架,实现定时更新
此教程大纲可以参考我之前的一篇文章。
二 什么是爬虫
是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。
所谓的网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。在Python中有很多库可以用来抓取网页。
简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。
核心模拟人的行为
三 数据如何产生价值
1.最直接的卖数据
你是否经常接到广告推销的电话,推荐你去植发?
你是否经常接到发财致富的电话,推荐你去投资?
个人信息,电商数据,行业数据等等都是一些热度比较高的交易对象。
在13项公民信息种类中(姓名、年龄、有效证件号码、婚姻状况、工作单位、学历、履历、家庭住址、电话号码等),报价最低1元/条,最高达到3000元/条。高学历人口信息价格20元-60元/条不等,银行流水单信息1000元-3000元/条。公民通讯住址信息是最常见的非法黑市交易类型,在所有信息种类中占近三成。
哎,学历低连信息都不值钱。
2.整合信息方便查阅
收集整理不同来源的数据,然后整理方便查阅,提高流量。然后上广告,查询收费来盈利。
天眼查,企查查这类网站都是同样的一个运营模式,爬取一些政府公开的数据,进行整理分析合并,然后给会员提供查阅服务。
还有这种比价网站,获取一些电商的数据,进行整理,然后靠竞价排名,商家返还红包等手段进行盈利。
3.需要做数据分析再发挥价值
获取行业信息,进行定价选址。
获取评论信息,进行舆论检测。
获取内部信息,进行战略制定。
四 数据爬到之后的工作
从事这种工作,当拿到数据之后,假如你只是个工具人,那么你的工作结束了可以直接开始摸鱼,剩下的交给数据分析组或者算法组的同事,就可以了。
但是一般情况下,老板为了他的兰博基尼,会让你再学习一些业务,再做一些数据清洗,分析,可视化的工作。
当你做完这些的时候,老板为了他的法拉利,会让你再做一个后台,进行爬虫监控调度。
当你后台做完之后,老板为了他的劳斯莱斯,会让你再做一个网站或者app,前后端一起搞,用来给搜索查询展示数据,类似天眼查一样。
当你前端后端搞定之后,老板为了他的宾利,会让你再做一个智能解析器,只需要输入个网址,就能进行这个网站的解析,提取数据,然后保存入库。
老板还要迈巴赫,帕加尼,布加迪,迈凯伦,阿斯顿马丁等等等等,无穷尽也。
五 爬虫流程
三步即可搞定爬虫
- 模拟网络请求
(通过一些请求工具模拟人的网页请求urllib,requests,aiohttp,twisted) - 信息解析
(对请求结果的html,js,json等进行处理,主要使用xpath,css选择器,re正则) - 数据持久化
(对解析的结果进行存储,本地文件或者数据库)
最关键的一部就是第一步,其他基本就是体力活了。因为第一步你会越到各种各样的反爬措施,倒逼爬虫攻城狮学习前端,后端,图片识别,web安全,android安全,机器学习……
基本上大纲设计就是遵循爬虫三步走的顺序。
今天就到这里了。
转载:https://blog.csdn.net/weixin_47388144/article/details/106209800