1行代码爬CSDN热榜，Python哈啤酒式写法_飞道的博客

1行代码爬CSDN热榜，Python哈啤酒式写法

2021-06-01 07:43 816人阅读评论(0)

橡皮擦，一个逗趣的互联网高级网虫

项目背景

群友：擦姐，CSDN 热榜数据最少能用几行代码爬取？
擦姐：估计 10 行吧。
群友：oh baby，show me your code！

项目的需求就是这么来的，用最少行数的代码爬 CSDN 热榜。

其中导入模块可以不算在代码行数中。

看到最后，请把感受打在评论区

爬虫分析

待爬取目标：https://blog.csdn.net/rank/list

数据接口，两次请求获取热榜前 100 数据。

https://blog.csdn.net/phoenix/web/blog/hotRank?page=0&pageSize=50
https://blog.csdn.net/phoenix/web/blog/hotRank?page=1&pageSize=50

数据返回格式：JSON

{
   
  "code": 200,
  "message": "success",
  "data": [
    # 实际数据
  ]
}

分析完毕，开始编码，全套代码可直接使用 requests 库。

热榜爬虫

这么简单的代码，首先编写一个基础爬虫，获取到数据，然后再对其进行优化。

import requests
import json

for i in range(2):
    headers = {
   
        "user-agent": "Baiduspider"
    }
    res = requests.get(f"https://blog.csdn.net/phoenix/web/blog/hotRank?page={
     i}&pageSize=50", headers=headers)
    data = res.json()
    if data["code"] == 200:
        data = data["data"]

    with open(f"{
     i}.json", "w+", encoding="utf-8") as f:
        f.write(json.dumps(data))

运行代码，会在代码目录中生成两个 json 文件，每个文件存在 50 条数据，即热榜所有数据。

以上代码合计 12 行，接下来内卷开始，让代码行数变短。

缩写变量的声明

import requests
import json
for i in range(2):
    json_data = requests.get(f"https://blog.csdn.net/phoenix/web/blog/hotRank?page={
     i}&pageSize=50",headers={
   "user-agent": "Baiduspider"}).json()
    if json_data and json_data["code"] == 200:
        with open(f"{
     i}.json", "w+", encoding="utf-8") as f:
            f.write(json.dumps(json_data))

进行简单整理，从 12 行降低到 7 行，略有进步。

再将代码开头部分的 json 和 requests 合并为一行，代码降低为 6 行。

增加生成器代码

将循环部分替换为生成器，进行代码再次精简，本步减少代码比较少，只减少 1 行代码。

import requests, json
for i, data in enumerate([requests.get(f"https://blog.csdn.net/phoenix/web/blog/hotRank?page={
     i}&pageSize=50",headers={
   "user-agent": "Baiduspider"}).json() for i in range(2)]):
    with open(f"{
     i}.json", "w+", encoding="utf-8") as f:
        f.write(json.dumps(data))

请忽略自动折行代码，目前剩余 4 行代码。

继续优化，将折行与 json 模块去除掉。

换行也去除

import requests
for i, data in enumerate([requests.get(f"https://blog.csdn.net/phoenix/web/blog/hotRank?page={
     i}&pageSize=50", headers={
   "user-agent": "Baiduspider"}).text for i in range(2)]):
    with open(f"{
     i}.json", "w+", encoding="utf-8") as f: f.write(data)

按照上述代码整理之后，此时只剩下 3 行代码。

这难道是极限了吗？我们就不能写出正常人理解不了的代码吗？

1 行代码最终版

使用最简单的知识，实现最刺激的效果，为了让代码到最少行数，我写出了下面这个版本。

import requests
with open("file.json", "a+", encoding="utf-8") as f: [f.write(my_str + "\n") for my_str in [
    requests.get(f"https://blog.csdn.net/phoenix/web/blog/hotRank?page={
     i}&pageSize=50",
                 headers={
   "user-agent": "Baiduspider"}).text for i in range(2)]]

你没看错，除去模块导入外，只有 1 行代码。

这行代码展开之后长成下面的样子，一大长行，而它抓到了热榜 100 数据。

with open("file.json", "a+", encoding="utf-8") as f: [f.write(my_str + "\n") for my_str in [requests.get(f"https://blog.csdn.net/phoenix/web/blog/hotRank?page={
     i}&pageSize=50",headers={
   "user-agent": "Baiduspider"}).text for i in range(2)]]

到最后，你肯定冒出了很多问号，请把你想说的那个字打在评论区，没准还能中奖。

抽奖环节（目前累计送出 2 份）

只要评论数过 50
随机抽取一名幸运读者
奖励 39.9 元爬虫 100 例专栏 1 折购买券一份，只需 3.99 元

今天是持续写作的第 159 / 200 天。
求点赞、求评论、求收藏。

转载：https://blog.csdn.net/hihell/article/details/117429398

查看评论

飞道的博客

飞道的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章