先说明一下,我的这篇文章没有太多的技术含量,最多只有一些的技术总结,剩下的是我这几个月算是自身经历吧,但是没跑题啊,还是跟爬虫技术的先关的,不喜欢可以关了哈,来都来了就看看呗,没准可以帮助你呢,哈哈谢谢你~
你好啊,欢迎你点进来听我吹牛皮,哈哈哈哈开玩笑,我依旧是那个带你们走向更刺激更惊险的杨旭华,从最后一次写博客到现在有三个多月了,是从2021-02-15 16:48:37最后一篇到现在重新写作,嗯马上就三个月半了
嗯我先废话一会,凑个字数,不想看的,可以直接传送车,下面有我总结的爬虫面试题,绝对的真实面试题,亲身经历哈哈哈哈 看见没点这飞过去
可能会有很多人好奇为什么这么长时间不更新,忙? 没空? ,其实都不是,我不忙也不是没空,也不是懒得不想写(咳~其实就是嘿嘿…)
先说说我这几个月在干嘛吧,因为我是学生哈,从我最后一次写文章开始应该是年的大年初四,一直到初八初九吧,我其实在家,走亲戚什么的,今天那个亲戚来,明天这个亲戚来,反正就是待客嘛,也就放飞自我了,不想写文章
然后到后面就是跟小兄弟哥们们一块玩玩玩,其实从元旦就开始玩哈哈哈哈,后面有几天我陪我女朋友玩了一星期(没想到吧我还有女朋友),害就是她上班,我玩我的,下了班一起吃饭玩啥的,因为她上班的早,就这样到了3月1号,我回家了
从回家开始我就直接开始找工作了,我找的就是爬虫方向的工作,因为是实习生,而且爬虫工作又特别少(实习岗位),加上疫情的原因,导致我找工作非常不顺利
我真的是找了整整一个月半,给大家看一下我的boss直聘截图,我怎么记得之前是快四百多沟通了呢
这个还只是我在这个软件上的记录,还有用到过的拉钩招聘、实习生、智联招聘、猎聘、前程无忧等等,但凡是我符合招聘要求的,我全部投了,真是海投,结果收到的回复没有几个,面试更是寥寥无几,真的是体会到社会的毒打了,我大概算了一下,这几个软件总共我沟通加投简历差不多有快1000了吧,主要是boss和拉钩,有的就是读了你的消息不回你,要么没看消息也不回你,要么就是聊得好好的人没了,要么就是。。。。。哎反正就是各种奇葩
再后来就是找到几家家愿意让我去实习的公司,反正要么就是我看不上,要么就是看不上我,我记得有家公司大厂大厂大厂 我面试通过了,然后让我等offer,最后又通知我面试一次,最后就跟我说没通过,醉了醉了,真是无奈,估计就是被别人顶了
重点啦:建议大家,等一家公司的offer的时候不要傻傻的真的等,接着面,万一爽约了,你就game over了
最后的最后,我到了我现在这家公司,主要做人工智能这方面,是在汽车上做项目,这个我觉得还是国内少有的,它是一个小公司,人数屈指可数,我在这里也不是做爬虫了,就是深度学习工程师,害主要就是找找数据集,然后训练model工作清闲的很
正文Action
好了废话说的也不少了接下来给就谈谈真的专业知识,爬虫,相信看过我的文章的人都知道,我写爬虫的时候,有时候会写这个东西,因为我怕有的人学了爬虫回去搞一些事情出来,在这里算是善意的提醒吧
所以面对监狱编程,你真的够格吗??
干这一行的都知道这几年有很多个正正经经的案例,就是哪个哪个公司程序员写了爬虫代码,最后导致爬进了监狱,这些案例是真实存在的,虽然已经过去很久但只要是一提起来还是觉得非常刺激的
那我们来谈谈今天的主题,你真的能爬进监狱吗?我想这个问题,没有正常的回答,你能说你进不去吗,万一呢,你把人家服务器给爬崩了,嗯你就是技术这么好,他们的服务器配置就是这么低这么烂
但是你真的能进去吗?我相信你们是因为我文章的标题进来的,大多数可能出于好奇,甚至都不懂爬虫,心理想:我编个程,怎么就进监狱了,有很多看博客的都是这个心里
那接下来我们从技术分析一下,你至少要写成什么样的爬虫,才有可能爬进监狱
先从最基础的程序设计说起:
- requests请求
- User-Agent伪装
- re/xpath解析数据
- mysql/mongo存储
有了这些,恭喜你有了半只脚踏进了监狱,哈哈哈放心早着呢
进阶:
- Selenium+Chrome/Firefox
- 多线程/多进程爬虫
- Proxies代理
- 控制台抓包
- js逆向/js分析改写
- ajax请求破解
- 分布式爬虫
进阶已完成,我们更近了一步
高级进阶:
- scrapy框架
- 周期性计划任务
- 机器视觉与tesseract
- Fiddler抓包工具
- 移动端app数据抓取
高级进阶后,已经没什么可以阻挡你的脚步了,兄弟,Prison离你更近了哈哈哈
真的吗?
当然不可能,只会这点只能说你很厉害了,真正足以让你进到监狱的是Robots协议,还有一些不可控制的东西,就像是我们上面说的,你把人家服务器搞崩了,网站也搞的运营不起来了,以及你把人家的私有的数据爬下来卖给了他人等等,这些如果你违反了,你必然会受到惩罚,所以,不要不要不要去做死,如果你觉得你足够幸运,我祝你Bon voyage,Safe and sound
敲黑板划重点: 接下来给大家总结了一下我今年面试的题:
1、Python中__init__ 和__new__的区别
2、整个爬虫的工作流程(如何运作)
3、http的响应码(最好是记住200到500状态每个的前三个)
4、进程、线程、协程的区别
5、多线程和多进程介绍一下
6、如何实现多进程和多线程
7、python并发和并行
8、redis数据库的事务
9、redis的五大数据类型
10、redis的有序集合
11、mysql 数据库的索引
12、mysql数据库中如何给用户权限
13、Linux查看磁盘命令以及磁盘占用命令
14、Linux查看内容使用情况命令
15、命令行如何实现对一个文件的去重
16、Python的内存管理机制
17、Python的可变数据类型和不可变数据类型
18、Python 中类方法、类实例方法、静态方法有何区别?
19、map 函数
20、解释一下什么是闭包?
21、函数装饰器的理解
22、Python生成器的原理
23、Python 的魔法方法
24、正则里match 与search 的区别?
25、url 的形式?
26、varchar 与char 的区别?
27、常见的反爬虫和应对方法?
28、验证码的解决?
29、描述下scrapy 框架运行的机制?
30、scrapy五大核心组件介绍一下,分别是做什么用
31、怎么实现栈
32、深拷贝,浅拷贝的区别?
33、Linux查看某个进程占用的端口号
34、有一个数组,取出第三大的数字,要求时间复杂度为O(n),请问如何实现
35、目标:对指定网站进行数据抓取
要求:撰写爬虫策略调研报告
1、列明遇到困难,解决问题方法、策略或建议
2、时间1小时。
内容:
网址:https://www.zcygov.cn,该网站浙江省和重庆市商品信息(可以测试某类商品)。
抓取信息如下:
36、这个是一家公司给我的爬虫任务,算是一个测试吧
下面的是一家公司的笔试题,但是我没做,因为我是实习生,肯定是做的话得费点力
37、输入一哥字符串,返回字符串倒序后的结果
38、写一个函数,该函数用来判断一个字符串是否为IP地址
39、HTTP协议的请求报文共有哪几个组成部分
40、请列出常见的排序算法都有什么,以及它们的平均时间复杂度都是多少
41、现有一个大文件demo.txt,至少超过10G,在内存有限的情况下(低于2G),判断目标字符串”csdn”在文件中出现的次数
郑重声明:如有他人爬取任何信息造成违法行为情况下,与本作者无关,本作者不承担任何责任 调皮一下,但是你们也千万别去做那些事情,会负法律责任的
转载:https://blog.csdn.net/Yxh666/article/details/117283182