小言_互联网的博客

真香~教你用15行代码爬取当代青年的网易云评论

300人阅读  评论(0)

 

 

到了深夜,这些所谓的网抑云(网易云)少年就开始“无病呻吟”了,但是他们真的使这样吗?想必大家都是因为受爱情的苦,听闻爱情,十有九悲。可是长期这样下去,带心里和身体都有巨大的伤害。长期的熬夜以及精神状态。所以在这篇文章在分享技术的同时也希望大家能想得开,把这些事看淡些,随遇而安。祝福你们每一个人能找到真正适合自己的那个藏在内心深刻的人。

 

好了,废话不多说,是时候展现真正的技术了。

 

1.无头浏览器selenium是什么?

Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。

什么?像真正的用户在操作一样??岂不是模拟人操纵的样子,一切看上去都正正常常,不会让被爬者产生怀疑。对的,就是这么腻害。

2.selenium的优势?

  1. 自动渲染所有响应内容,可以直接绕过js加密的操作,只要是展示在浏览器上看的数据,都可以使用无头浏览器获取。
  2. 几乎可以达成可见即可爬。
  3. 使用到的第三方库,jieba库、wordcloud库、MySQLdb、numpy库。

 

 

1.先用selenium将网易云上面的某一歌曲(这里以任然的无人之岛为例)的一定数量的评论爬取并且存数据库中,进行可视化。

 

2.然后从数据库中把评论查找出来,进一步用词云出来评论,形成一张图片。某个词数量最多,当然了,在图片中某个词显示的越大,则这个词出现的次数,数量,也就是人们评论的某个词越多,也代表了人们内心的想法。

让我们看一下效果图。

 

 

以上呢,就是效果图了,是不是很炫酷,有没有发现外形是个人,当然了效果图的外形也可以是其他的形状,具体看自己使用的图片模板是什么样子。

 

首先,我们代码里面有一条请求网址的url,也就是地址栏的那一串地址,需要声明一点,仅限网页版的网易云音乐官网的歌曲。示例图如下:

1.请求的url

 

2.需要爬取的评论

 

 

1.爬取评论进库部分

 

2.进行效果图展示可视化

 

文章的源码在这里,无私奉献给你们,拿走不谢!

链接:https://pan.baidu.com/s/1fLID8sojNA_0oNJHJESeTA 
提取码:sc39 


 

各位友友,过年越来越近,我的网盘资料是越来越多了,尤其是小白入门Python的资料,我已经用不到了,现准备拿出一些分享给大家,有需要的直接拿走。

 

需要的话可以添加我助教的微信,她时间比较多,备注一下"领资料",方便她知道你的来意和最快速度给你东西,细品下图:

 


转载:https://blog.csdn.net/zhiguigu/article/details/113119838
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场