爬虫的简单定义:
转载:https://blog.csdn.net/jgdabc/article/details/107996657
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
下面我们来看网络爬虫框架,我先带大家入门,做一些简单的东西,并在实例中为大家讲述。 爬虫的分类:1:通用网络爬虫
它的爬取范围和爬取数据较大,对于爬取的速度和存储空间要求比较高,她在爬取页面的顺序上效率比较低,需要好长时间才能刷新一回页面,这种爬虫的应用在大型搜索引擎中。
2:聚焦网络爬虫
这种爬虫比较有选择性,又叫主题网络爬虫,主要是爬取特定的信息,所以爬取速度比较快,保存页面的速度比较快。
3:增量式网络爬虫
所谓增量式网络爬虫,只会在需要的时候爬取新产生的页面,对于没有变化的页面就不会爬取,这种爬虫在时间和空间上降低了损耗,但在算法的问题上有一定的难度。
4:深度网络爬虫
这种爬虫就比较复杂了,主要有一些功能模块组成,在后面我会讲。
我们来看网络爬虫基本原理
说明:
1 :获取初始的URL,这是用户指明要爬取的网页
2 :在爬取对应的URL和网页时,获取新的URL
3 :将新的URL放入
转载:https://blog.csdn.net/jgdabc/article/details/107996657
查看评论