公众号 “菜鸟学Python”
第443篇原创,设为 “星标”,一起学Python!
唐人街探案系列题材,凭借着演员出色的表演,以及精彩的探案故事,近些年来成为了一部很不错的搞笑探案类的影片,取得了票房和口碑的双丰。
但是随着唐探3在全国影院的全面上线,大家对于这部电影的评价却是非常的出乎意料,豆瓣评分只有区区6.1分。很多影评表示非常的失望。小编从豆瓣和猫眼两个网站用Python获取了几千条影评数据,一起来看看大家是怎么说的吧。
01.数据获取
首先我们分别从豆瓣和猫眼网站中获取网站的公开数据,对于数据的获取,由于两个网站都存在较强的反爬虫机制,这里我们以猫眼为例,为大家展示一下主要的程序。
爬虫的程序其实很简单,就是构造一个url用requests去请求,这样类似的程序其实前面写影评的时候,菜鸟哥写很多,这里就不赘述。
然后主体的程序我们用循环遍历解析每个网页,然后提取短评即可。
上述的程序中,通过self.save_data函数来调用self.parse_data函数解析url,而在self.parse_data函数中,通过解析请求网页所获得的json数据,提取我们想要抓取的评论、用户所在城市等信息。对于豆瓣、猫眼所抓取的数据,如下图所示:
02.数据分析
获取到数据之后,接下来针对获取到的数据进行分析,看一下包含哪些信息。
首先我们来看一下豆瓣评论,唐探3上映时间是大年初一的早晨八点,由于大家的评论时间大都集中在大年初一,所以我们就来看一下,这一天当中时间的分布信息。
上述的程序首先提取了评论时间中的小时信息,然后利用pyecharts中的Line类进行可视化展示。
从大家的评论时间可以看出,绝大多数的评论者都是看完了唐探三后立即进行评论,因此可以看到评论的时间是在上午的十点到十一点时间最为集中。那豆瓣中大家对于唐探3的评分如何呢?
上图程序中,我们利用饼形图来进行豆瓣评分的可视化展示。
上图中,可以看到,超过了66%的影评者给出了“较差”或者“很差”的评价,而给出力荐和推荐的影评者不到20%。看来这一次唐探在豆瓣的评分真的是扑街了。光有评分还不够,我们通过影评词云的展示,来看看大家对于这部电影的评价吧。
可以看到,豆瓣影评者对于唐探三的评论中,几乎没有关于“喜欢”、“好看”等等关键词,反而出现了“尴尬”、“最后”、“恶心”等关键词。
03.猫眼的数据
看完了豆瓣影评者的评论,接下来我们把目光聚焦到猫眼上来,看看猫眼的影评者所给出的评价是如何的吧。
1).打分情况
作为同豆瓣的对比信息,我们来看一下猫眼影评者在影片打分上的分布情况吧。
如上图所示,可以看到,猫眼评分中绝大多数的人给出的评价在4.5以上,而得分在1.5分以下的占比非常少。这样的打分情况跟豆瓣评分简直是两个极端的存在。
2).城市分布
对于猫眼的用户,他们的所在的城市分布是如何的呢?
通过对于猫眼影评者城市的信息统计,并利用Geo类进行可视化展示,其结果如下图所示。
通过上图可以看到,评论者在全国的范围内还是大多都集中在东部沿海和成都,重庆等方向,其中北上广等一线城市的影评者分布更为密集。
3).关键词
对于猫眼影评者来说,既然评分很高,那么他们的影评词云关键词是什么呢?
可以看到,与豆瓣评论者明显不同的是,猫眼影评者的关键词都是关于“好看”、“不错”、“搞笑”‘、“可以”等积极的评价,与猫眼高评分相呼应。
从豆瓣和猫眼中影评者的评论中,关于唐探三有着不同的评价,究竟唐探三是否能够得到大家的认可呢?欢迎有看过的小伙伴在下方留言,吱一声。
年度爆款文案
转载:https://blog.csdn.net/cainiao_python/article/details/113821104