网络爬虫技术从入门到精通（渗透高端操作）第一章_飞道的博客

网络爬虫技术从入门到精通（渗透高端操作）第一章

2020-08-23 20:28 1471人阅读评论(0)

爬虫的简单定义：

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

下面我们来看网络爬虫框架，我先带大家入门，做一些简单的东西，并在实例中为大家讲述。爬虫的分类：

1:通用网络爬虫
它的爬取范围和爬取数据较大，对于爬取的速度和存储空间要求比较高，她在爬取页面的顺序上效率比较低，需要好长时间才能刷新一回页面，这种爬虫的应用在大型搜索引擎中。
2:聚焦网络爬虫
这种爬虫比较有选择性，又叫主题网络爬虫，主要是爬取特定的信息，所以爬取速度比较快，保存页面的速度比较快。
3:增量式网络爬虫
所谓增量式网络爬虫，只会在需要的时候爬取新产生的页面，对于没有变化的页面就不会爬取，这种爬虫在时间和空间上降低了损耗，但在算法的问题上有一定的难度。
4：深度网络爬虫
这种爬虫就比较复杂了，主要有一些功能模块组成，在后面我会讲。

我们来看网络爬虫基本原理

说明：
1 ：获取初始的URL,这是用户指明要爬取的网页
2 ：在爬取对应的URL和网页时，获取新的URL
3 ：将新的URL放入

转载：https://blog.csdn.net/jgdabc/article/details/107996657

查看评论

飞道的博客

飞道的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章

网络爬虫技术从入门到精通（渗透高端操作）第一章

* 以上用户言论只代表其个人观点，不代表本网站的观点或立场