小言_互联网的博客

python爬虫第一讲

355人阅读  评论(0)

#爬取京东的一部手机信息 
import requests
url="https://item.jd.com/100004404928.html"
try:
    r=requests.get(url)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失败")

#爬取亚马逊的一本书   修改headers
import requests
url="https://www.amazon.cn/dp/B079PSXB7H/ref=sr_1_2?__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&keywords=%E4%B9%A6&qid=1570189921&rnid=1403206071&s=amazon-global-store&sr=1-2&srs=1403206071"
try:
    kv={'user-agent':'Mozilla/5.0'}
    r=requests.get(url,headers=kv)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(r.text[1000:2000])
except:
    print("爬取失败")

#自定义关键词 爬取百度搜索内容
import requests
try:
    kv={'wd':'Python'}  #自定义的关键词
    r=requests.get("http://www.baidu.com/s",params=kv)
    print(r.request.url)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(len(r.text))
    print(r.text[:1000])
except:
    print("爬取失败")
 

#自定义关键词 爬取360搜索内容
import requests
try:
    kv={'q':'Python'}#自定义的关键词
    r=requests.get("http://www.so.com/s",params=kv)
    print(r.request.url)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(len(r.text))
    print(r.text[:1000])
except:
    print("爬取失败")
 

#爬取图片
import requests
import os
url="http://img1.imgtn.bdimg.com/it/u=2048116090,3629196295&fm=26&gp=0.jpg"
root="D://11//"    #爬取的图片保存的地方
path=root + url.split('/')[-1]    # url.split('/')[-1]即 2048116090,3629196295&fm=26&gp=0.jpg
try:
    if not os.path.exists(root):
        os.mkdir(root)
    if not os.path.exists(path):
        r=requests.get(url)
        with open(path,'wb') as f:
            f.write(r.content)
            f.close()
            print("文件保存成功")
    else:
        print("文件已存在")
except:
    print("爬取失败")

    我在爬取图片时候,在本地文件夹确实找到了图片,但打开时显示打开错误。。。

有大佬能指点迷津吗

 

 

 


转载:https://blog.csdn.net/Retarded78_/article/details/102096091
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场