80行快乐代码与你窥探爬虫的数据深渊——教你如何高效快速任意爬虫（附大量项目案例和语法解析文章）_小言_互联网的博客

在互联网的汪洋大海里面，一切皆数据，前端工程师把数据和网页完美的结合在一起，他们以为这样是最美丽的契合，殊不知，后端的那些工程师宝宝们，一天没事干，把他们的老窝给惊扰了，爬虫给网站带来的危害是比较大的，如果一个服务器一般被很多用户访问，可能它会宕机，也可能会崩溃，那么一个机器通过编程手段来达到这个目的，一分钟的点击次数，同时点击所达到的次数，机器不会累，于是网站被他们端了。一切都要恰到好处，于是他们商量好了，礼貌的访问，隐隐约约的访问，悄悄咪咪的访问，有节制的去获取数据，慢慢的前端工程师和后端工程师关系越来也好了，最终他们诞生了幸福的结晶——大数据工程师！

哈哈哈，以上纯属娱乐，不做参考，不喜勿喷哟！

爬虫到底是什么？

简单来讲，爬虫就是一个探测机器，它的基本操作就是模拟人的行为去各个网站溜达，点点按钮，查查数据，或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。

你可以简单地想象：每个爬虫都是你的「分身」。就像孙悟空拔了一撮汗毛，吹出一堆猴子一样。

你每天使用的百度，其实就是利用了这种爬虫技术：每天放出无数爬虫到各个网站，把他们的信息抓回来，然后化好淡妆排着小队等你来检索。
抢票软件，就相当于撒出去无数个分身，每一个分身都帮助你不断刷新 12306 网站的火车余票。一旦发现有票，就马上拍下来，然后对你喊：土豪快来付款。

爬虫的那些操作

爬虫也分善恶。

像谷歌这样的搜索引擎爬虫，每隔几天对全网的网页扫一遍，供大家查阅，各个被扫的网站大都很开心。这种就被定义为「善意爬虫」。

但是，像抢票软件这样的爬虫，对着 12306 每秒钟恨不得撸几万次。铁总并不觉得很开心。这种就被定义为「恶意爬虫」。（注意，抢票的你觉得开心没用，被扫描的网站觉得不开心，它就是恶意的。）

我们都是善意爬虫，因为我们有礼貌的去获取数据

学习爬虫从初识爬虫开始

之前我们写过很多关于爬虫的案例和语法合集，这里可以点击查看！逐渐更新中...........

爬虫之案例集合

我推荐两篇我个人觉得参考价值和娱乐性相对于比较高的三篇技术文章！

Python爬取养老信息网案例

说了这么多的，当然绝对不是废话哈，磨刀不误砍柴工，如果你了解了这些基本的东西，学习起来也不会感到枯燥的!

项目介绍

有这样一个网站，它包含了中国的养老机构的信息，里面的数据可以作为科研人的资源，但是他们就是觉得有点麻烦，如果手动去找数据的话，于是我又踏上了帮助人的道路了

哈哈哈哈，加油！

项目实现

完整源码点击此处下载！亲测可用！！！直接运行！！

数据集点击此处下载！！

导入第三方库


  
   
    
     
    
    
     
      import requests
     
    
   
    
     
    
    
     
      from lxml 
      import etree
     
    
   
    
     
    
    
     
      from fake_useragent 
      import UserAgent
     
    
   
    
     
    
    
     
      import pandas 
      as pd
     
    
   
    
     
    
    
     
      import time

请求数据部分源码


  
   
    
     
    
    
     
       b = 
      0
     
    
   
    
     
    
    
     
              a += 
      1
     
    
   
    
     
    
    
     
              res = requests.get(url=
      'http://www.yanglaocn.com/yanglaoyuan/yly/?RgSelect=02301&page={}'.format(j),
     
    
   
    
     
    
    
     
                                 headers=headers)
     
    
   
    
     
    
    
     
              res.encoding = 
      'UTF-8'
     
    
   
    
     
    
    
     
              html = res.text
     
    
   
    
     
    
    
     
              html_ = etree.HTML(html)
     
    
   
    
     
    
    
     
              text_1 = html_.xpath(
      '//div[@class="jiadiantulist"]/ul[1]/a/@href')

这个主页的信息太少了，我们需要点击去，要这里面的全部数据

有小伙伴想到了模拟点击，但是我也去试过，但是发现速度非常的慢，我们如果是要获取少量的数据还好，如果很多的数据，那就完蛋了，太慢了！

于是我又重新找到了另外一个方法，在爬虫里面嵌套一个爬虫获取页面当单个的网址，这样就可以实现速度和数据并存运行了，果然效果还不错！

双层循环，递归操作，完美结合！

解析数据


  
   
    
     
    
    
     
      # 解析数据
     
    
   
    
     
    
    
     
                  name = html_.xpath(
      '//div[@class="leftcontext_left"]/div[1]/label/text()')
     
    
   
    
     
    
    
                 
      for text 
      in name:
     
    
   
    
     
    
    
     
                      get_info[
      '机构名称'] = text
     
    
   
    
     
    
    
     
                  time.sleep(
      1)

储存数据部分源码


  
   
    
     
    
    
     
      df.to_csv(
      '养老.csv', mode=
      'a+', index=
      False, encoding=
      'utf-8')
     
    
   
    
     
    
    
     
                      count += 
      1
     
    
   
    
     
    
    
     
                      get_info_list.clear()
     
    
   
    
     
    
    
     
                      texts = html_.xpath(
      '//div[@class="leftcontext"]//text()')
     
    
   
    
     
    
    
     
                      aa = list(texts)
     
    
   
    
     
    
    
     
                      index = aa.index(
      "养老信息网提示您：")
     
    
   
    
     
    
    
     
                      v = list(texts)[:index]
     
    
   
    
     
    
    
     
                      c = []
     
    
   
    
     
    
    
                     
      for x 
      in v:  
      # 遍历b这个，去除里面的特殊字符
     
    
   
    
     
    
    
                         
      if x 
      in 
      "●\r\n":
     
    
   
    
     
    
    
                             
      continue
     
    
   
    
     
    
    
                         
      else:  
      # 分别分出有意义的词组，因为对于一个词的，分析没有太大的意义
     
    
   
    
     
    
    
     
                              c.append(x)  
      # 存储1词组变量
     
    
   
    
     
    
    
                     
      with open(
      r"文本.txt", 
      'a+', encoding=
      "utf-8") 
      as file:
     
    
   
    
     
    
    
     
                          file.write(
      "\t\t\t\t" + text)
     
    
   
    
     
    
    
                         
      for i 
      in c:
     
    
   
    
     
    
    
     
                              file.write(
      '\n'.join(i.split()) + 
      '\n')
     
    
   
    
     
    
    
     
                      print(
      "第1页第1条数据写入！！！")  
      # 写入第一行表头加数据，表头默认

主函数


  
   
    
     
    
    
     
      if __name__ == 
      '__main__':
     
    
   
    
     
    
    
         
      # 定义一些变量
     
    
   
    
     
    
    
     
          ua = UserAgent()  
      # 解决了我们平时自己设置伪装头的繁琐，此库自动为我们弹出一个可用的模拟浏览器
     
    
   
    
     
    
    
     
          headers = {
      "User-Agent": ua.random}
     
    
   
    
     
    
    
     
          Data()
     
    
   
    
     
    
    
     
          print(
      "感谢你使用本程序！")

数据获取完毕！

知识是不是需要付费？让我想起了一个博主，他说：“知识不付费，永远学不会”

本期的文章就更新到这里哟，关注我！学习Python和大数据，带你一起快乐代码！

每文一语

为你写诗，为你写时，为你做最浪漫的事！遇见才是美好，没有问号？

转载：https://blog.csdn.net/weixin_47723732/article/details/115547779

查看评论

小言_互联网的博客

小言_互联网的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章