手把手教你爬取清纯小姐姐私房照，小孩子别学，【后篇】_小言_互联网的博客

手把手教你爬取清纯小姐姐私房照，小孩子别学，【后篇】

2021-05-01 10:30 622人阅读评论(0)

因为写了前一篇爬虫博客，看来挺火的。哈哈，第一篇阅读量破万的的博客，还是的庆幸的。

因为火热程度比较高，直接就进入了python热榜第一了。

来来来，这一篇除了炫耀下成绩以外，还来一些干货。

有挺多小伙伴在后台问我，甚至加我问的问题就是：为什么我的程序报错了？诶，奇怪的是，他们报错都是同一个问题。

好家伙，起码有几十个小伙子问过这个问题。具体问题是：
TypeError: cannot use a string pattern on a bytes-like object

哎呀，这是为什么呢？是不是博主夹带了干货没放出来呢？实属冤枉啊。大概率是我用的是py2，你用的是py3

python2和python3之间切换，难免会碰到一些问题，python3中Unicode字符串是默认格式（就是str类型），ASCII编码的字符串（就是bytes类型，bytes类型是包含字节值，其实不算是字符串，python3还有bytearray字节数组类型）要在前面加操作符b或B；python2中则是相反的，ASCII编码字符串是默认，Unicode字符串要在前面加操作符u或U

那怎么解决呢？转换一下不就行了吗。

import chardet   #需要导入这个模块，检测编码格式
encode_type = chardet.detect(html)  
html = html.decode(encode_type['encoding']) #进行相应解码，赋给原标识符（变量）

完整代码如下:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import chardet
import re
import requests
import os


def dowmloadPic(html, keyword,i):
    encode_type = chardet.detect(html)  
    html = html.decode(encode_type['encoding']) #进行相应解码，赋给原标识符（变量）

    pic_url = re.findall('"objURL":"(.*?)",',html,re.S)
   
    abc=i*60
    print('找到关键词:' + keyword + '的图片，现在开始下载图片...')
    for each in pic_url:
        print('正在下载第' + str(abc) + '张图片，图片地址:' + str(each))
        try:
            pic = requests.get(each, timeout=10)
        except requests.exceptions.ConnectionError:
            print('【错误】当前图片无法下载')
            continue

        dir = r'D:\image\i' + keyword + '_' + str(abc) + '.jpg'
        if not os.path.exists('D:\image'):
            os.makedirs('D:\image')
        
        fp = open(dir, 'wb')
        fp.write(pic.content)
        fp.close()
        abc += 1


if __name__ == '__main__':
    #word = input("Input key word: ")
    headers = {
   'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36'}
    name = "清纯妹子私房照"
    num = 0
    x =1

    for i in range(int(x)):
        url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word='+name+'+&pn='+str(i*30)
        print(url)
        result = requests.get(url,headers=headers)
        dowmloadPic(result.content, name,1)
print("下载完成")

1带人学习，2有偿解决代码问题，有需要的加q：2316773638

转载：https://blog.csdn.net/weixin_57171554/article/details/116269119

查看评论

小言_互联网的博客

小言_互联网的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章

手把手教你爬取清纯小姐姐私房照，小孩子别学，【后篇】

* 以上用户言论只代表其个人观点，不代表本网站的观点或立场