小言_互联网的博客

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

380人阅读  评论(0)


看到标题,

啪的一下你就进来了吧!

如果有经常刷B站的小伙伴,肯定都知道B站鬼畜现在的顶流是谁?

印度:没错正是在下

那必须是当代大师浑元形意太极拳掌门人「马保国」先生啊!

实话讲,马保国走进大家视野还是他5月份PK被人连续KO三次。

不过现在他在鬼畜区的主要素材却是马保国更早时候的一些视频。

比如2020年一月份,右眼被蹭了一下的马老师面带微笑,为我们生动形象地讲述了健身房里的年轻人是如何不讲武德,偷袭他的故事。

在视频里,他控诉踢馆的年轻人 “ 不讲武德 ” ,劝他 “ 耗子尾汁 ” 。可以作为B站入站题目,建议全文背诵。

B站这个小机灵鬼,甚至还给马老师专门开了专栏,这为我们后续爬取数据也带来了便利。

跟平时爬取B站不太一样,在B站的马保国专栏下,F12可以轻松找到接口。

https://api.bilibili.com/x/web-interface/web/channel/multiple/list?channel_id=3503796&sort_type=hot&page_size=30

解析JSON后我们需要的数据都可以获得。

其中要提到一点,url中的offest从解析上一个url的json中获取,如如下图所示。

通过简短的爬虫代码,

很快啊,很快就爬取了1.4万条马保国先生的视频数据。


   
  1. def get_data(url,headers):
  2.     data_m = pd.DataFrame(columns=[ 'id', 'name', 'view_count', 'like_count', 'duration', 'author_name', 'author_id', 'bvid'])
  3.     html = requests.get(url,headers=headers).content
  4.     data = json.loads(html.decode( 'utf-8'))
  5.     offset = data[ 'data'][ 'offset']
  6.      print(offset)
  7.      for j in  range( 30):
  8.         data_m = data_m. append({ 'id':data[ 'data'][ 'list'][j][ 'id'], 'name':data[ 'data'][ 'list'][j][ 'name'],
  9.                              'view_count':data[ 'data'][ 'list'][j][ 'view_count'], 'like_count':data[ 'data'][ 'list'][j][ 'like_count'],
  10.                              'duration':data[ 'data'][ 'list'][j][ 'duration'], 'author_name':data[ 'data'][ 'list'][j][ 'author_name'],
  11.                              'author_id':data[ 'data'][ 'list'][j][ 'author_id'], 'bvid':data[ 'data'][ 'list'][j][ 'bvid']},ignore_index=True)
  12.      return(offset,data_m)
1.4万条数据预览

我们先进行简单的数据整理(播放量有的是万为单位)后,将1.4万个视频按照播放量和点赞量制作了一个散点图。

可以看到什么才是“顶流”的话题,播放量几百万,点赞量几十万的相关视频特别多。

按照播放量排序一下。

第一名就是今年一月份相声泰斗马老师经典单口相声!!!

那按照点赞量呢?

第一名是来自鬼畜up主的伊丽莎白鼠“武 林 高 手”!

而懂王与马老师的联动表现也很优秀!

其中几个特效向的表现更是突出!

由于马老师的语录太过经典,我决定再补充爬一下它的弹幕。


   
  1. # 绘制词云图
  2. stylecloud.gen_stylecloud(text= ' '.join(text1), 
  3.                           collocations=False,
  4.                           font_path=r '‪C:\Windows\Fonts\msyh.ttc',
  5.                           icon_name= 'fas fa-play-circle',
  6.                           size= 653,
  7.                           output_name= '马保国词云图.png')
  8. Image(filename= '马保国词云图.png'

耗子尾汁真是门面担当!

婷婷、英国大理石、塔门说也夹杂其中。

最后小五想推荐几个视频:

1、比较喜欢的人力VOCALOID

2、技术向的标杆,重点是小芃授人以渔!

3、最后观察者网的视频给大家呈现了一个更多元的,“三维立体浑元”的马老师,甚至还发掘出了一些闪光点,而非一味的玩梗。

福利时间

介绍一本????:《Django实战 Python Web典型模块与项目开发》Python Web项目开发框架,从基础知识、典型模块到项目开发,面向实战,直击Django开发痛点,提高开发效率。点击下图可看详情/购买!????

感谢人民邮电出版社的支持!「凹凸数据」300积分兑换????!


转载:https://blog.csdn.net/zhuxiao5/article/details/109792824
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场