小言_互联网的博客

用最简单的白话教你入门python爬虫(一)

450人阅读  评论(0)

最近一个月的自己,时常会问自己努力有用吗,还不是不如别人?常常严重否定自己,一度陷入泥潭,想了好久,还是选择站了起来。从小到大,自己的学习都是自己在监督,学习的路上不要怕孤独,随着自己的慢慢长大,也懂得了不少道理,也见识到了不同的人,也感受到了这个社会的恶心。但是自己还需要做好自己,不论如何,努力是为了自己,而不是为了攀比。不知道从什么时候开始,我慢慢的越来越懂是非道理,慢慢的还是变成了自己讨厌的人,但是在这个社会,如果我没有实力,那么以后就要挨现实的鞭打,因此,在屏幕前的陌生人,你也要加油呀!

网络爬虫是有趣的技术,我相信你学习爬虫的初衷肯定是为了多一份乐趣多一份成就感,总有人迈不出着第一步,那么就让我来带着你踏上学习爬虫的阶梯。

1.何谓网络爬虫?

我很讨厌那些博主的定义(当然不是抨击博主),他们总是把网络爬虫抽象化,让小白读者还没迈出第一步就放弃。简单来说,网络爬虫就是根据根据自己的分析,选择适当的爬取方法,爬取到网页内容,再对所得内容作提取,从而得到自己想要的内容;你也当然可以作持久化存储,比如保存到文件或数据库中

2.requests库的基本使用详解

这里我也不上requests的定义,你只需要知道它是你获取网页内容最简便的途径

2.1 安装requests库

你可以在cmd终端输入: pip install requests就可以安装完成

2.2 爬取百度网页内容

import requests #导入requests库
url="https://www.baidu.com/" #百度网址链接
r=requests.get(url=url) #get方法获取网页内容
print(r.text[:1000]) #这里由于网页内容较多,进行字符串切片获取部分指定内容

运行结果:

注意这里的运行结果,不难看出有乱码的出现,相信很多小可爱这里很纠结,这就是编码问题了;再注意圆圈内的内容,这便是此网页的编码格式,当然不同网页的编码格式可能不一样,这时候你只需要看头部信息中的编码格式,再在原来的代码中加一句:r.encoding="utf-8"
即可,如下图:

import requests #导入requests库
url="https://www.baidu.com/" #百度网址链接
r=requests.get(url=url) #get方法获取网页内容
r.encoding="utf-8" #设置网页编码格式为"utf-8",从而解决乱码问题
print(r.text[:1000]) #这里由于网页内容较多,进行字符串切片获取部分指定内容

运行结果:

从结果不难看出,乱码问题已经解决.

这只是一个开始!

谨此文章献给那些想学习python爬虫的小可爱们,请关注我哦,后续将不间断更新关于python爬虫部分的相关知识。

有什么问题在评论区留言哦,会一一回复。


转载:https://blog.csdn.net/qqshenbaobao/article/details/117430479
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场