用最简单的白话教你入门python爬虫(一)_小言_互联网的博客

用最简单的白话教你入门python爬虫(一)

2021-06-01 12:05 702人阅读评论(0)

最近一个月的自己，时常会问自己努力有用吗，还不是不如别人？常常严重否定自己，一度陷入泥潭，想了好久，还是选择站了起来。从小到大，自己的学习都是自己在监督，学习的路上不要怕孤独，随着自己的慢慢长大，也懂得了不少道理，也见识到了不同的人，也感受到了这个社会的恶心。但是自己还需要做好自己，不论如何，努力是为了自己，而不是为了攀比。不知道从什么时候开始，我慢慢的越来越懂是非道理，慢慢的还是变成了自己讨厌的人，但是在这个社会，如果我没有实力，那么以后就要挨现实的鞭打，因此，在屏幕前的陌生人，你也要加油呀！

网络爬虫是有趣的技术，我相信你学习爬虫的初衷肯定是为了多一份乐趣多一份成就感，总有人迈不出着第一步，那么就让我来带着你踏上学习爬虫的阶梯。

1.何谓网络爬虫？

我很讨厌那些博主的定义(当然不是抨击博主)，他们总是把网络爬虫抽象化，让小白读者还没迈出第一步就放弃。简单来说，网络爬虫就是根据根据自己的分析，选择适当的爬取方法，爬取到网页内容，再对所得内容作提取，从而得到自己想要的内容；你也当然可以作持久化存储，比如保存到文件或数据库中

2.requests库的基本使用详解

这里我也不上requests的定义,你只需要知道它是你获取网页内容最简便的途径

2.1 安装requests库

你可以在cmd终端输入: pip install requests就可以安装完成

2.2 爬取百度网页内容

import requests #导入requests库
url="https://www.baidu.com/" #百度网址链接
r=requests.get(url=url) #get方法获取网页内容
print(r.text[:1000]) #这里由于网页内容较多，进行字符串切片获取部分指定内容

运行结果:

注意这里的运行结果，不难看出有乱码的出现，相信很多小可爱这里很纠结，这就是编码问题了；再注意圆圈内的内容，这便是此网页的编码格式，当然不同网页的编码格式可能不一样，这时候你只需要看头部信息中的编码格式，再在原来的代码中加一句：r.encoding="utf-8"
即可，如下图：

import requests #导入requests库
url="https://www.baidu.com/" #百度网址链接
r=requests.get(url=url) #get方法获取网页内容
r.encoding="utf-8" #设置网页编码格式为"utf-8",从而解决乱码问题
print(r.text[:1000]) #这里由于网页内容较多，进行字符串切片获取部分指定内容

运行结果:

从结果不难看出，乱码问题已经解决.

这只是一个开始！

谨此文章献给那些想学习python爬虫的小可爱们，请关注我哦，后续将不间断更新关于python爬虫部分的相关知识。

有什么问题在评论区留言哦，会一一回复。

转载：https://blog.csdn.net/qqshenbaobao/article/details/117430479

查看评论

小言_互联网的博客

小言_互联网的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章