前言

耗子喂汁是什么意思什么梗呢？可能很多人不知道，这个梗是出自马保国，经常上网的人可能听说过这个名字，而他所说的一些话也被当成了一些梗，比如年轻人不讲武德，闪电五连鞭等等

B站马保国的一段视频中他右眼红肿金句频出，部分经典句式甚至被网友们总结归纳成了“保国体”，变成了口头禅，比如“年轻人不讲武德，欺侮我六十九岁的老同志”“耗子尾汁”（好自为之）等

那么让我们来看看网友们大都发了啥弹幕

项目目标

爬取B站弹幕，词云图显示

第一个视频播放量快2000W了，弹幕也有4.8W

每天一遍，快乐源泉，嘿嘿嘿

环境

Python3.6

pycharm

爬虫代码

导入工具


  
   
    
     
    
    
     
      import requests
     
    
   
    
     
    
    
     
      import parsel
     
    
   
    
     
    
    
     
      import csv
     
    
   
    
     
    
    
     
      import time

先按F12，找到弹幕的数据在哪

从列表页中获取详情页的URL地址等数据


  
   
    
     
    
    
     
      for page 
      in range(
      20,
      32):
     
    
   
    
     
    
    
         
      time.sleep(
      1)
     
    
   
    
     
    
    
         
      print(
      '=================正在下载11月{}日弹幕===================================='.
      format(page))
     
    
   
    
     
    
    
     
          url = 
      'https://api.bilibili.com/x/v2/dm/history?type=1&oid=140610898&date=2020-11-{}'.
      format(page)
     
    
   
    
     
    
    
     
          headers = {
     
    
   
    
     
    
    
             
      'user-agent': 
      'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
     
    
   
    
     
    
    
             
      "cookie": 
      "__uuid=1896D3F7-4A98-54EB-F7FA-3301CE9EF5F307776infoc; buvid3=B68B2187-4C3E-4466-A896-FBF9B292099B190963infoc; LIVE_BUVID=AUTO4115757254257055; stardustvideo=1; rpdid=|(umu|ulY)JJ0J'ul~l~klRJ); sid=8cq4r229; im_notify_type_65901796=0; laboratory=1-1; DedeUserID=523606542; DedeUserID__ckMd5=909861ec223d26d8; blackside_state=1; CURRENT_FNVAL=80; SESSDATA=a976c0b4%2C1618637313%2C4d792*a1; bili_jct=7f54729ec20660f750661122b80746d2; PVID=1; bp_video_offset_523606542=458111639975213216; CURRENT_QUALITY=16; bfe_id=1e33d9ad1cb29251013800c68af42315"
     
    
   
    
     
    
    
     
          }
     
    
   
    
     
    
    
     
          response = requests.get(url=url, headers=headers)
     
    
   
    
     
    
    
     
          response.encoding = response.apparent_encoding
     
    
   
    
     
    
    
     
          selector = parsel.Selector(response.text)
     
    
   
    
     
    
    
     
          data = selector.css(
      'd::text').getall()
     
    
   
    
     
    
    
         
      for i 
      in data:
     
    
   
    
     
    
    
             
      print(i)
     
    
   
    
     
    
    
     
              with 
      open(
      'B站弹幕.csv', mode=
      'a', newline=
      '', encoding=
      'utf-8-sig') as f:
     
    
   
    
     
    
    
     
                  writer = csv.writer(f)
     
    
   
    
     
    
    
     
                  links = []
     
    
   
    
     
    
    
     
                  links.append(i)
     
    
   
    
     
    
    
     
                  writer.writerow(links)

词云代码


  
   
    
     
    
    
     
      import 
      jieba
     
    
   
    
     
    
    
     
      import 
      wordcloud
     
    
   
    
     
    
    
     
      import 
      imageio
     
    
   
    
     
    
    
     
      
     
    
   
    
     
    
    
     
      # 读取文件内容
     
    
   
    
     
    
    
     
      f = 
      open('csv文件地址', encoding='utf-8')
     
    
   
    
     
    
    
     
      txt = 
      f.read()
     
    
   
    
     
    
    
     
      # print(txt)
     
    
   
    
     
    
    
     
      # jiabe 分词 分割词汇
     
    
   
    
     
    
    
     
      txt_list = 
      jieba.lcut(txt)
     
    
   
    
     
    
    
     
      string = 
      ' '.join(txt_list)
     
    
   
    
     
    
    
     
      # 词云图设置
     
    
   
    
     
    
    
     
      wc = 
      wordcloud.WordCloud(
     
    
   
    
     
    
    
             
      width=
      800, # 图片的宽
     
    
   
    
     
    
    
             
      height=
      500, # 图片的高
     
    
   
    
     
    
    
             
      background_color=
      'white', # 图片背景颜色
     
    
   
    
     
    
    
             
      font_path=
      'msyh.ttc', # 词云字体
     
    
   
    
     
    
    
     
       # mask=py, # 所使用的词云图片
     
    
   
    
     
    
    
             
      scale=
      15,
     
    
   
    
     
    
    
     
      )
     
    
   
    
     
    
    
     
      # 给词云输入文字
     
    
   
    
     
    
    
     
      wc.generate(string)
     
    
   
    
     
    
    
     
      # 词云图保存图片地址
     
    
   
    
     
    
    
     
      wc.to_file('\\1.png')

转载：https://blog.csdn.net/m0_48405781/article/details/109755030

查看评论

小言_互联网的博客

小言_互联网的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章

Python爬取B站耗子尾汁、不讲武德出处的视频弹幕

前言

项目目标

环境

爬虫代码

词云代码

* 以上用户言论只代表其个人观点，不代表本网站的观点或立场