本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
前言
耗子喂汁是什么意思什么梗呢?可能很多人不知道,这个梗是出自马保国,经常上网的人可能听说过这个名字,而他所说的一些话也被当成了一些梗,比如年轻人不讲武德,闪电五连鞭等等
B站马保国的一段视频中他右眼红肿金句频出,部分经典句式甚至被网友们总结归纳成了“保国体”,变成了口头禅,比如“年轻人不讲武德,欺侮我六十九岁的老同志”“耗子尾汁”(好自为之)等
那么让我们来看看网友们大都发了啥弹幕
项目目标
爬取B站弹幕,词云图显示
第一个视频播放量快2000W了,弹幕也有4.8W
每天一遍,快乐源泉,嘿嘿嘿
环境
Python3.6
pycharm
爬虫代码
导入工具
-
import requests
-
import parsel
-
import csv
-
import time
先按F12,找到弹幕的数据在哪
从列表页中获取详情页的URL地址等数据
-
for page
in range(
20,
32):
-
time.sleep(
1)
-
print(
'=================正在下载11月{}日弹幕===================================='.
format(page))
-
url =
'https://api.bilibili.com/x/v2/dm/history?type=1&oid=140610898&date=2020-11-{}'.
format(page)
-
headers = {
-
'user-agent':
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
-
"cookie":
"__uuid=1896D3F7-4A98-54EB-F7FA-3301CE9EF5F307776infoc; buvid3=B68B2187-4C3E-4466-A896-FBF9B292099B190963infoc; LIVE_BUVID=AUTO4115757254257055; stardustvideo=1; rpdid=|(umu|ulY)JJ0J'ul~l~klRJ); sid=8cq4r229; im_notify_type_65901796=0; laboratory=1-1; DedeUserID=523606542; DedeUserID__ckMd5=909861ec223d26d8; blackside_state=1; CURRENT_FNVAL=80; SESSDATA=a976c0b4%2C1618637313%2C4d792*a1; bili_jct=7f54729ec20660f750661122b80746d2; PVID=1; bp_video_offset_523606542=458111639975213216; CURRENT_QUALITY=16; bfe_id=1e33d9ad1cb29251013800c68af42315"
-
}
-
response = requests.get(url=url, headers=headers)
-
response.encoding = response.apparent_encoding
-
selector = parsel.Selector(response.text)
-
data = selector.css(
'd::text').getall()
-
for i
in data:
-
print(i)
-
with
open(
'B站弹幕.csv', mode=
'a', newline=
'', encoding=
'utf-8-sig') as f:
-
writer = csv.writer(f)
-
links = []
-
links.append(i)
-
writer.writerow(links)
词云代码
-
import
jieba
-
import
wordcloud
-
import
imageio
-
-
# 读取文件内容
-
f =
open('csv文件地址', encoding='utf-8')
-
txt =
f.read()
-
# print(txt)
-
# jiabe 分词 分割词汇
-
txt_list =
jieba.lcut(txt)
-
string =
' '.join(txt_list)
-
# 词云图设置
-
wc =
wordcloud.WordCloud(
-
width=
800, # 图片的宽
-
height=
500, # 图片的高
-
background_color=
'white', # 图片背景颜色
-
font_path=
'msyh.ttc', # 词云字体
-
# mask=py, # 所使用的词云图片
-
scale=
15,
-
)
-
# 给词云输入文字
-
wc.generate(string)
-
# 词云图保存图片地址
-
wc.to_file('\\1.png')
转载:https://blog.csdn.net/m0_48405781/article/details/109755030
查看评论