飞道的博客

知识储备!学习爬虫必备

386人阅读  评论(0)

学习一门计算机语言,首先要了解它的底层实现机制和程序处理过程,也就是了解它的设计思路。当然,刚接触一门语言的时候,不需要太深入的学习,但心里也要有一个Python知识框架。在接下来的学习过程中,你要不断的填充和完善这个框架,就像盖房子盖楼房一样。除了使用极光爬虫代理,以下几点需要特别注意。

1、网页的基本知识:
HTML语言基础知识(了解href等大学计算机水平内容)
了解网站签约和接收(POSTGET)的概念
用一点点js知识来理解动态网页(当然如果自己理解就更好了)

2.一些分析语言用于为下一次网页内容分析做准备。
一号正则表达式:基础技术永远是最基础的。
2号XPATH:一种高效的分析语言,表达清晰简单。掌握了之后,基本就没必要用规律性了。
3号美人组:美人汤模块解析网页神器,一个神器。如果不使用一些爬虫框架(比如后面提到的scrapy),配合request、urllib(后面有详细描述)等模块,可以编写各种紧凑的爬虫脚本。

3.我们应该充分理解分析语言和编译语言的特点和区别。
编译语言:比如C/C++在运行前有独立的编译过程,会编译成二进制的机器语言可执行文件(。所以不需要重新编译运行效率更高。特点是一次编译多次运行就能快速执行程序。但是由于没有虚拟机的中间件,只能编译成符合原生指令集的可执行文件,所以不能支持跨平台。而且在编译时可以发现语法、数据类型转换、变量类型匹配等错误。,尤其是显式数据类型检测,所以它也被归类为强类型语言。

解析语言:比如Java/Python把源代码转换成字节码文件(。pyc/。javac)而不是二进制机器语言。然后将字节码交给虚拟机(jvm/pvm)处理,然后根据不同的平台在虚拟机中编译与当前平台指令集兼容的机器码。这也是Java和Python具有跨平台优势的根本实现,但相对而言,程序执行的效率会降低。此外,分析语言中的代码错误只有在运行时才会被输出,然后代码才会被更正。

还有一种脚本语言,比如ASP/PHP/Javascript,需要相应的脚本引擎来支持解析和执行。

综上所述,想要深入学习一门语言,需要理论和实践双向结合,然后才能写出符合语言风格的程序。在做好充分的知识储备后,选择极光爬虫代理作为优质的辅助工具,也能让你上一段楼梯,提高学习效率。

文章部分内容源于网络,联系侵删*


转载:https://blog.csdn.net/zhimaHTTP/article/details/114319182
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场