小言_互联网的博客

一起学爬虫(Python) — 03

261人阅读  评论(0)

爬─=≡Σ(((つ•̀ω•́)つ

先表示一下我很开心啊,为什么开心呢,因为有几个小伙伴给咱留言了,哈哈哈。
还是蛮有成就感的,在这里点名几位小伙伴,谢谢你们对我的支持哦~


当然也会听取各位的建议,少用点表情包,多一点有用的东西!
昨天我们学会了把一整个网页给爬下来,但是这还只是最基础的东西。
举个例子:我们去抢劫的话,是不是要抢到钱才肯罢休啊,同样的我们去爬东西肯定要爬到有用的才肯罢休嘛,但是有的人会把钱放到衣服口袋里,我们只需要把衣服扒下来就可以拿到钱了,有的人就很过分了,把钱藏到鞋底里,这你抢的时候肯定很刺激,哪里会想到这个年轻人不讲武德,到头来只抢了一件衣服,对吧。
同样的网站也是,不要觉得我们扒了网站一件衣服就很厉害了,那只是它展示给我们的,很少很少几乎没有哪个傻乎乎的程序员会把重要的东西都写在网页表面,一般都是通过动态的读取数据库里的东西,可以说昨天爬下来的东西都是大家都玩腻的,没有什么好骄傲的。
今天,带你们玩个厉害的!
抢,就要抢银行!

抢银行o(▼皿▼メ;)o

在这里我们假设一下,我们要去抢百度的银行,对我们来说银行就是数据嗷,别误会啦哈哈哈,不然我会被告怂恿网友抢银行的。

昨天我们爬下来的就是个这,连搜索功能都实现不了,为什么呢,因为搜索的功能是动态的,不在衣服里,我们现在就要找到这个搜索功能,比如先搜一个…因为某些人要偷偷看所以就搜个比较安全的词吧,奥利给!
好啦,这就是我们的搜索出来的页面,但是通过昨天的代码明显爬不到这里啊,我爬不进去啊!
那要怎么办呢……
今天,就带你解决这个问题!

怎么抢∑(´△`)?!

电影里抢银行很少有直接刚的吧,至少也得伪装一下对吧,说不定银行里的人比较傻抢都不用抢就直接拿钱走人了,诶嘿嘿~
同样的,我们去利用代码实现搜索功能也需要伪装,怎么伪装呢…
这就用到了第一天教给大家的知识!说明第一天写的不是没用的嗷!!没有记笔记的可以去翻一翻,就类似大家以前上课,老师总喜欢先把知识点讲出来让你记下来,然后再详细的跟你讲每个知识点一样,咳咳,准备好上课!

截图为证,第一天确实有嗷,不要忘了说老师没教(真实)!
来来来,先伪装好,一会你进去抢,我在门口替你看着~
至于怎么伪装呢…只要不穿着太像抢劫的,银行一般都会让你进去,能听懂吧…只要不作死,就是说穿正常衣服就可以了!
接下来,别说话看我操作:

如果你要问我这个一堆英文的东西是咋出来的…那我………………
也只能跟你说啊,在网页里面的任何一个地方右键,会看到一个审查元素,我用的是360极速浏览器(不是打广告),一般推荐大家用谷歌浏览器哈,用谷歌的话右键去找检查选项,就会出现这个东西了,出现之后呢,点击上图的Network选项,别点错了哦!
对了,是在百度搜索界面那里打开这个工具栏,别找歪了。

打开之后呢,就把框框那里勾上,至于为什么要勾上…总之勾上就对了,不知道不会百度吗!

这里替你们百度了,哈哈哈,哪里不会问哪里。
但是一般来说都很会很多东西的,不管是啥反正有一大串英文才正常,比如……

看起来就很厉害吧,操作着这些别人看不懂的(虽然自己也看不懂),多容易吸引妹子啦~
咳咳,要跑题了,我们是要来学伪装的!

随便点开一个,然后把注意力都放在右边的框框里。
如果你要问我为什么我的工具栏变得这么大,那我就必须得告诉你因为这个工具栏是可以拖的~弄到自己觉得方便的大小才好嘛,太大了就会受不了,太小了也会没感觉,刚刚好的才是适合的!

往下翻嗷,很快啊,找到这个User-Agent,然后啪一下把它后面这串复制一下。
好了,这就是你的身份标识了!那么这串我也看不懂的东西到底是啥呢,它是在跟服务器说我们是通过什么浏览器什么版本进行访问的,你不穿衣服进银行别说抢钱了,门都进不去,对吧~
那有了衣服我们要怎么穿呢?虽然说小时候爸爸妈妈一定教过,但是在这里,我们众生平等,一起学穿衣服。

header={
   
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}

这里呢,我们要把找到的身份标识以字典的形式记录下来,不要问为什么,听话!
差点忘了…第一步要引用模块。

import requests

然后再按照昨天的步骤…

这么想你就输了!
为什么呢?
扒衣服是一件很简单的事,不用思考那么多对吧,但是抢劫是一门艺术活,你得先想好那个小子会把钱藏到那里,这个过程就叫做分析!
莽夫不可怕,有脑子的莽夫才可怕。

第一步,指定url:


  • 咋一看,会不会觉得太长了?虽然我很想说试试把奥利给后面的一大串东西删掉吧,但是我没法解释为什么要删,哈哈哈…总之删掉后就变成了……

    就像壁虎切了尾巴但是还是活蹦乱跳的一样,那我们是不是可以理解为这个url的组成其实就是前半部分加上后半部分的奥利给呢,如果把奥利给换成雅蠛蝶是不是就会搜索雅蠛蝶呢?
    实践!这部分就交给你们了哈,反正就是这么个事实,hh
    前半部分=整体-后半部分
    那我们思路有了,url就有了,后面的事情就简单了!
    url=‘https://www.baidu.com/s?wd=’+‘奥利给’
    那么这样想,我们是不是可以把后面的奥利给变成一个动态的,就是变量呢?这样就可以实现搜索我们其他想要的内容了,比如美女图片啊,美女图片啊之类的!
wd = input('请输入你要搜索的内容:')
url = 'https://www.baidu.com/s?wd='+wd
response = requests.get(url=url,headers=header)

突然出现的这些代码,大家应该是都能理解的,多了一个没见过的headers,这个就是我们展示给这个网站看的身份辨识,header在上面已经用字典封装好啦,要记住,爬虫是模拟我们上网,模拟模拟模拟!
然后返回一个响应数据,我们存储到response中。

#把爬取下来的数据text化
page_text = response.text
#起名, .html是后缀名,你也可以起.txt,.html可以直接以网页的方式打开
fileName = wd + '.html'
#持久化存储,这方面的如果有不理解的可以直接百度的,或者留言也可以哦
with open(fileName,'w',encoding='utf-8') as fp:
    fp.write(page_text)
print(fileName+'保存成功!')

我不装了!摊牌了,敲到这里就已经把我们要搜索的那个网站给保存下来了,其实跟昨天的内容相比就多了一个分析url。

今天本来想把参数给大家说一下的,结果敲着敲着就用土方法完成了…就当做是巩固一下昨天的内容吧!

总结

今天爬了一天,虽然说实现了动态爬吧,没有昨天那么僵硬了,但是还没有真的爬到我们想要的东西,那家伙衣服穿的不少,一层又一层……
至于怎么把他扒光,就放到明天教大家吧,这种事要循序渐进…
今天就到这里啦,谢谢各位的喜欢,hh٩(๑❛ᴗ❛๑)۶
如果觉得光爬百度的搜索引擎不过瘾,可以去爬爬搜狗,或者一些小说网站,音乐网站之类的,感受一下哪些数据能爬,哪些爬下来了但是不显示,明天带着问题来学习哦~
各位早点睡,虽然现在才6点,但还是要跟即将熬夜努力学习的你说声:晚安,保重身体,和头发。


转载:https://blog.csdn.net/BcXbHello/article/details/110236308
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场