小言_互联网的博客

用Python爬取糗事百科段子,可视化后结果发现

470人阅读  评论(0)


大家好,我是小五????

生活真是太苦了,需要找点快乐的精神食粮支撑社畜生活,听说糗事百科段子挺多,今天就来看一看!

糗事百科的段子栏目声称:幽默笑话大全__爆笑笑话__笑破你的肚子的搞笑段子,我们用 Python 来看看糗事百科的段子到底怎么样呢?

本文主要内容:

selenium爬取段子信息

这次我们利用selenium来实现翻页爬取段子信息!

翻页查看url变化规律:


   
  1. https: //www.qiushibaike.com/text/page/1/
  2. https: //www.qiushibaike.com/text/page/2/
  3. https: //www.qiushibaike.com/text/page/3/
  4. https: //www.qiushibaike.com/text/page/4/
  5. https: //www.qiushibaike.com/text/page/5/
  6. https: //www.qiushibaike.com/text/page/6/

思路:段子信息在 id 为 content 的 div 标签下的 div 下的第二个 div 标签下的 div 标签里,获取到所有 div 标签的内容,然后遍历,从中提取出每一条段子信息。

代码如下:


   
  1. from selenium  import webdriver
  2. from time  import sleep
  3. import logging
  4. import openpyxl
  5. wb = openpyxl.Workbook()
  6. sheet = wb.active
  7. sheet. append([ '段子内容''好笑数''评论数'])
  8. logging.basicConfig(level=logging.INFO, format= '%(asctime)s - %(levelname)s: %(message)s')
  9. chrome_driver = r 'D:\python\pycharm2020\chromedriver.exe'
  10. options = webdriver.ChromeOptions()
  11. # 可以设置无头模式 不弹出浏览器
  12. # options.add_argument( "--headless")
  13. # 关闭左上方 Chrome 正受到自动测试软件的控制的提示
  14. options.add_experimental_option( 'useAutomationExtension', False)
  15. options.add_experimental_option( "excludeSwitches", [ 'enable-automation'])
  16. browser = webdriver.Chrome(options=options, executable_path=chrome_driver)
  17. # 可以设置绕过Webdriver的检测
  18. browser.execute_cdp_cmd( "Page.addScriptToEvaluateOnNewDocument", {
  19. "source""" "
  20. Object.defineProperty(navigator, 'webdriver', {
  21. get: () => undefined
  22. })
  23. " ""
  24. })
  25. def get_data(page):     # 爬取数据函数
  26.     url = f 'https://www.qiushibaike.com/text/page/{page}/'
  27.     browser.get(url)    # 访问目标url
  28.     browser.maximize_window()   # 最大化窗口
  29.     sleep( 1)    # 短暂休眠
  30.     # Xpath定位到所有包含段子信息的div标签
  31.     items = browser.find_elements_by_xpath( '//*[@id="content"]/div/div[2]/div')
  32.     #  print( len(items))  一页 25条段子
  33.     # 遍历  获取每一条段子信息
  34.      for item in items:
  35.         con = item.find_element_by_xpath( './/a/div/span').text                   # 段子内容
  36.         funny_num = item.find_element_by_xpath( './/div[2]/span[1]/i').text      # 好笑数
  37.         comment_num = item.find_element_by_xpath( './/div[2]/span[2]/a/i').text   # 评论数
  38.         sheet. append([con, funny_num, comment_num])
  39.         logging.info([con, funny_num, comment_num])
  40. if __name__ ==  '__main__':
  41.      for i in  range( 114):    # 翻页爬取
  42.         get_data(i)
  43.     browser.quit()     # 关闭浏览器
  44.     wb.save(filename= 'datas.xlsx')   # 保存数据

运行结果如下:

段子信息保存到了本地 Excel 里,结果如下:

绘制词云图

段子内容词云图可视化


   
  1. import pandas as pd
  2. import jieba
  3. import collections
  4. import re
  5. from wordcloud  import WordCloud
  6. import matplotlib.pyplot as plt
  7. # 读取段子数据
  8. datas = pd.read_excel( 'datas.xlsx')[ '段子内容']
  9. # 读取停用词数据
  10. with open( 'stop_words.txt', encoding= 'utf-8') as f:
  11.     con = f.read().split( '\n')    # 得到每一行的停用词
  12.     stop_words = set()
  13.      for i in con:
  14.         stop_words.add(i)
  15. result_list = []
  16. for data in datas:
  17.     # 文本预处理  去除一些无用的字符   只提取出中文出来
  18.     new_data = re.findall( '[\u4e00-\u9fa5]+', data, re.S)
  19.     new_data =  "/".join(new_data)
  20.     # 文本分词
  21.     seg_list_exact = jieba.cut(new_data, cut_all=True)
  22.     # 去除停用词和单个词
  23.      for word in seg_list_exact:
  24.          if word not in stop_words and  len(word) >  1:
  25.             result_list. append(word)
  26. print(result_list)
  27. # 筛选后统计
  28. word_counts = collections.Counter(result_list)
  29. # 绘制词云
  30. my_cloud = WordCloud(
  31.     background_color= 'white',  # 设置背景颜色  默认是black
  32.     width= 800, height= 550,
  33.     font_path= 'simhei.ttf',   # 设置字体  显示中文
  34.     max_font_size= 160,        # 设置字体最大值
  35.     min_font_size= 16,         # 设置字体最小值
  36.     random_state= 88           # 设置随机生成状态,即多少种配色方案
  37. ).generate_from_frequencies(word_counts)
  38. # 显示生成的词云图片
  39. plt.imshow(my_cloud, interpolation= 'bilinear')
  40. # 显示设置词云图中无坐标轴
  41. plt.axis( 'off')
  42. plt.show()

运行效果如下:

老婆、朋友、孩子、媳妇、同事、回家、老公等词云都是糗事百科段子内容里出现频率较高,都比较贴进生活,除此之外,"发现" 这个词也是出现频率较高的,看来有点东西。

散点图

分析评论数与好笑数之间关系,散点图可视化


   
  1. import pandas as pd
  2. import matplotlib.pyplot as plt
  3. import matplotlib as mpl
  4. # 读取数据
  5. df = pd.read_excel( 'datas.xlsx')
  6. funny_num, comment_num = df[ '好笑数'], df[ '评论数']
  7. # 设置中文显示
  8. mpl.rcParams[ 'font.family'] =  'SimHei'
  9. # 设置图形显示风格 ggplot
  10. plt.style.use( 'ggplot')
  11. # 设置大小  像素
  12. plt.figure(figsize=( 96), dpi= 100)
  13. # 绘制散点图
  14. plt.scatter(comment_num, funny_num)
  15. # 添加描述信息
  16. plt.title( '段子评论数与好笑数关系-散点图')
  17. plt.xlabel( '评论数')
  18. plt.ylabel( '好笑数')
  19. plt.show()

运行效果如下:

在评论数小于 50 时,点分布密集,大概还有评论数多,好笑数多的关系,评论数大于50之后,点分布非常散乱。段子的评论数和好笑数实时在变,下面来看看我们那是爬取下来的段子里评论数最多、好笑数最多的分别讲的啥。

TOP级别段子


   
  1. import pandas as pd
  2. # 读取数据
  3. df = pd.read_excel( 'datas.xlsx')
  4. # 降序排列后打印第一行  评论数最多
  5. df1 = df.sort_values(by= '评论数', ascending=False)
  6. print(df1.values[ 0])

评论数最多的段子


   
  1. import pandas as pd
  2. # 读取数据
  3. df = pd.read_excel( 'datas.xlsx')
  4. # 降序排列后打印第一行  好笑数最多
  5. df1 = df.sort_values(by= '好笑数', ascending=False)
  6. print(df1.values[ 0])

好笑数最多的段子

emmm,幽默笑话大全__爆笑笑话__笑破你的肚子的搞笑段子,就这?

作者:叶庭云
CSDN:https://yetingyun.blog.csdn.net/本文仅用于交流学习,未经作者允许,禁止转载,更勿做其他用途,违者必究。觉得文章对你有帮助、让你有所收获的话,期待你的点赞呀,不足之处,也可以在评论区多多指正。

????《Python最优化算法实战》此书以理论结合编程开发为原则,使用Python作为开发语言,讲解优化算法的原理和应用,详细介绍了Python基础、Gurobi 优化器、线性规划、整数规划、多目标优化、动态规划、图与网络分析、智能优化算法。点击下图可看详情/购买!????

感谢北京大学出版社支持!周日统一兑换!后台回复“读书会”进群,聊书聊币吹吹牛!后台回复“规则”轻松赚币,免费包邮带回家!


转载:https://blog.csdn.net/zhuxiao5/article/details/113209379
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场