飞道的博客

爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库

241人阅读  评论(0)

1. 写入文件的时候要encoding一下。

window默认的编码是 gbk 编码,

1. re

1. 正则的基础知识


字符组,数字,字母: [a-zA-Z0-9]
[^***]。除了这里面的都行,


.*?非贪婪匹配

2. python的re模块。

2. re.finditer ( r"\d+", “********”) 最常用!!!!


取东西:

3. 预加载正则表达式:

正则很长的化,就很方便。。

4. 从正则中取出数据来。

  • 我想把里面的名字什么的拿出来。


(?P<name>正则 ) 可以单独从正则匹配的内容中进一步提取内容
(?P<name>.*?)。然后那的时候,it.group('name')。就拿到了。


转载:https://blog.csdn.net/Zero_Adam/article/details/116425029
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场