飞道的博客

第一章 爬虫认知

457人阅读  评论(0)

一 前言

学习目标,是希望你能掌握如下一些可以写在简历上的技能。

  1. 熟练使用Python语言
  2. 掌握网络数据采集技术,熟练使用爬虫工具urllib、requests、xpath、beautifulsoup、re、selenium、aiohttp、scrapy以及scrapy-redis分布式爬虫框架等
  3. 熟悉网页语言html及javascripts,掌握json格式数据处理方法,拥有一定反爬经验积累,理解并熟练掌握各种反爬技巧(UA,IP代理,模拟登录,动态页面,验证码等)
  4. 了解手机app爬虫,掌握Fiddler抓包工具以及Airtest自动化测试框架的使用,安卓逆向
  5. 熟悉掌握数据存储技能MongoDB,MySQL,并配合Python使用,实现数据采集入库
  6. 熟悉多进程多线程异步,提高爬虫效率
  7. 熟悉scrapy+scrapyd+gerapy实现可视化爬虫程序调度
  8. 熟悉celery与apsheduler框架,实现定时更新

此教程大纲可以参考我之前的一篇文章。

二 什么是爬虫

是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。

所谓的网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。在Python中有很多库可以用来抓取网页。

简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。

核心模拟人的行为

三 数据如何产生价值

1.最直接的卖数据
你是否经常接到广告推销的电话,推荐你去植发?
你是否经常接到发财致富的电话,推荐你去投资?
个人信息,电商数据,行业数据等等都是一些热度比较高的交易对象。

在13项公民信息种类中(姓名、年龄、有效证件号码、婚姻状况、工作单位、学历、履历、家庭住址、电话号码等),报价最低1元/条,最高达到3000元/条。高学历人口信息价格20元-60元/条不等,银行流水单信息1000元-3000元/条。公民通讯住址信息是最常见的非法黑市交易类型,在所有信息种类中占近三成。

哎,学历低连信息都不值钱。

2.整合信息方便查阅
收集整理不同来源的数据,然后整理方便查阅,提高流量。然后上广告,查询收费来盈利。

天眼查,企查查这类网站都是同样的一个运营模式,爬取一些政府公开的数据,进行整理分析合并,然后给会员提供查阅服务。
还有这种比价网站,获取一些电商的数据,进行整理,然后靠竞价排名,商家返还红包等手段进行盈利。

3.需要做数据分析再发挥价值
获取行业信息,进行定价选址。
获取评论信息,进行舆论检测。
获取内部信息,进行战略制定。

四 数据爬到之后的工作

从事这种工作,当拿到数据之后,假如你只是个工具人,那么你的工作结束了可以直接开始摸鱼,剩下的交给数据分析组或者算法组的同事,就可以了。

但是一般情况下,老板为了他的兰博基尼,会让你再学习一些业务,再做一些数据清洗,分析,可视化的工作。

当你做完这些的时候,老板为了他的法拉利,会让你再做一个后台,进行爬虫监控调度。

当你后台做完之后,老板为了他的劳斯莱斯,会让你再做一个网站或者app,前后端一起搞,用来给搜索查询展示数据,类似天眼查一样。

当你前端后端搞定之后,老板为了他的宾利,会让你再做一个智能解析器,只需要输入个网址,就能进行这个网站的解析,提取数据,然后保存入库。

老板还要迈巴赫,帕加尼,布加迪,迈凯伦,阿斯顿马丁等等等等,无穷尽也。

五 爬虫流程

三步即可搞定爬虫

  1. 模拟网络请求
    (通过一些请求工具模拟人的网页请求urllib,requests,aiohttp,twisted)
  2. 信息解析
    (对请求结果的html,js,json等进行处理,主要使用xpath,css选择器,re正则)
  3. 数据持久化
    (对解析的结果进行存储,本地文件或者数据库)

最关键的一部就是第一步,其他基本就是体力活了。因为第一步你会越到各种各样的反爬措施,倒逼爬虫攻城狮学习前端,后端,图片识别,web安全,android安全,机器学习……

基本上大纲设计就是遵循爬虫三步走的顺序。

今天就到这里了。


转载:https://blog.csdn.net/weixin_47388144/article/details/106209800
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场