【pyhon】nvshens图片批量下载爬虫1.01

news/2024/7/19 12:23:33 标签: 爬虫, python
# nvshens图片批量下载爬虫1.01
# 原先版本在遇到网络故障时回下载不全,这回更改了模式使得下载不成就重新下载,直到全部下载完毕
from bs4 import BeautifulSoup
import requests
import time
import urllib.request

user_agent='Mozilla/4.0 (compatible;MEIE 5.5;windows NT)'
headers={'User-Agent':user_agent}

# 找到的图片
pictures=[]

# 不断追逐,直到结束
def crawl(url):
    print("爬取页面"+url);

    try:
        rsp=requests.get(url,headers=headers)
        soup= BeautifulSoup(rsp.text,'html.parser',from_encoding='utf-8')
        nextUrl="none";

        for divs in soup.find_all(class_="gallery_wrapper"):
            # 把找到的图片放到数组里去
            for img in divs.find_all('img'):
                print(img.get("src"))
                pictures.append(img.get("src"))

            #找下一页
            for link in divs.find_all('a',class_='a1'):
                if link.string=='下一页' and link.get("href").find('.html')!=-1:
                    nextUrl='https://www.nvshens.com'+link.get("href");

        #if len(pictures)>10:
        #    downloadPics()

        #time.sleep(5)

        if nextUrl!="none":
            print("前往下一页");
            crawl(nextUrl)
        else:
            print('爬取结束,开始下载...')
            downloadPics()
            print('下载结束,nvshens图片批量下载爬虫工作完毕.')
    except Exception as e:
        print("发生异常。重新爬行")# 不管怎么出现的异常,就让它一直爬到底
        crawl(url)

# 下载图片到本地
def downloadPics():
    while(len(pictures)>0):
        pic=pictures.pop()

        name=pic.split('/')[-1]

        try:
            rsp=urllib.request.urlopen(pic)
            img=rsp.read()
            with open(name,'wb') as f:
                f.write(img)
            print('图片'+pic+'下载完成')
        except Exception as e:
            print('图片'+pic+'下载异常,塞回重试')
            pictures.append(pic);

# Kickoff Start
# https://www.nvshens.com/g/22268/
crawl('https://www.nvshens.com/g/22210/')

输出:

C:\Users\horn1\Desktop\python\7>python downloadall.py
爬取页面https://www.nvshens.com/g/22210/
C:\Users\horn1\AppData\Local\Programs\Python\Python36\lib\site-packages\bs4\__init__.py:146: UserWarning: You provided Unicode markup but also provided a value for from_encoding. Your from_encoding will be ignored.
  warnings.warn("You provided Unicode markup but also provided a value for from_encoding. Your from_encoding will be ignored.")
https://img.onvshen.com:85/gallery/23789/22210/s/0.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/001.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/002.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/003.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/004.jpg
前往下一页
爬取页面https://www.nvshens.com/g/22210/2.html
https://img.onvshen.com:85/gallery/23789/22210/s/005.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/006.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/007.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/008.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/009.jpg
前往下一页
爬取页面https://www.nvshens.com/g/22210/3.html
https://img.onvshen.com:85/gallery/23789/22210/s/010.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/011.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/012.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/013.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/014.jpg
前往下一页
爬取页面https://www.nvshens.com/g/22210/4.html
https://img.onvshen.com:85/gallery/23789/22210/s/015.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/016.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/017.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/018.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/019.jpg
前往下一页
爬取页面https://www.nvshens.com/g/22210/5.html
https://img.onvshen.com:85/gallery/23789/22210/s/020.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/021.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/022.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/023.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/024.jpg
前往下一页
爬取页面https://www.nvshens.com/g/22210/6.html
https://img.onvshen.com:85/gallery/23789/22210/s/025.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/026.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/027.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/028.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/029.jpg
前往下一页
爬取页面https://www.nvshens.com/g/22210/7.html
https://img.onvshen.com:85/gallery/23789/22210/s/030.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/031.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/032.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/033.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/034.jpg
前往下一页
爬取页面https://www.nvshens.com/g/22210/8.html
https://img.onvshen.com:85/gallery/23789/22210/s/035.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/036.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/037.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/038.jpg
https://img.onvshen.com:85/gallery/23789/22210/s/039.jpg
爬取结束,开始下载...
图片https://img.onvshen.com:85/gallery/23789/22210/s/039.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/039.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/038.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/038.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/038.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/037.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/036.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/036.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/035.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/034.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/033.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/032.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/031.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/030.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/029.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/028.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/028.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/027.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/027.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/026.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/025.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/025.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/025.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/024.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/024.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/024.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/023.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/022.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/022.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/021.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/020.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/019.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/019.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/019.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/019.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/018.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/018.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/018.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/017.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/016.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/015.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/014.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/013.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/012.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/011.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/010.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/009.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/008.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/008.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/008.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/007.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/006.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/005.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/005.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/005.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/005.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/005.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/004.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/003.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/002.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/001.jpg下载完成
图片https://img.onvshen.com:85/gallery/23789/22210/s/0.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/0.jpg下载异常,塞回重试
图片https://img.onvshen.com:85/gallery/23789/22210/s/0.jpg下载完成
下载结束,nvshens图片批量下载爬虫工作完毕.

:)


http://www.niftyadmin.cn/n/735414.html

相关文章

Java 基础: 浅谈类型基础 - Class 对象

Java 基础: 浅谈类型基础 - Class 对象 文章目录Java 基础: 浅谈类型基础 - Class 对象简介参考正文浅谈 Class 对象的前生后世Class 对象的加载时机初识 Class 对象Class 类型方法获取类信息获取类型继承链创建对象实例 & 类型转换类型检查完整代码仓库结语简介 本文的起…

Java 进阶: Reflect 反射机制(动态获取类内部结构和对象内容、调用方法)

Java 进阶: Reflect 反射机制(动态获取类内部结构和对象内容、调用方法) 文章目录Java 进阶: Reflect 反射机制(动态获取类内部结构和对象内容、调用方法)简介参考完整测试代码地址正文获取类定义结构可获取内部信息总览成员变量 …

Ubuntu 20.04桌面文件夹图标消失及文件系统无法打开

前言 之前遇到过服务器上桌面图标突然消失的情况【在更换系统语言之后,桌面出现过一次这种情况,经过重启之后就恢复了】 再后来又莫名其妙出现了这么个问题,最开始搜索的解决方案是 让你打开任务管理器 gnome-system-monitor 找到 nautilu…

关于相机位姿的可视化

Matlab Camera Calibrator 如果使用Matlab的工具箱,有一个集成的可视化工具可以直接使用。 ---- video Python-OpenCV Camera Calibration and 3D Reconstruction Camera calibration With OpenCV C OpenCV Viz模块  这个模块目前只有C版本有 OpenCV 可视化&…

Java 基础: Annotation 注解说明(Spring 建设基础)

Java 基础: Annotation 注解说明(Spring 建设基础) 文章目录Java 基础: Annotation 注解说明(Spring 建设基础)简介参考完整示例代码正文注解的作用注解类型结构Annotation 注解类型RetentionPolicy 生命周期ElementType 可作用类型内置注解内置注解总览DocumentedRetentionTar…

Mvvm 前端数据流框架精讲

原文链接, 如果感兴趣可以加QQ群: 157937068, 一起交流。 本次分享是带大家了解什么是 mvvm,mvvm 的原理,以及近几年产生了哪些演变。 同时借 mvvm 这个话题拓展到对各类前端数据流方案的思考,形成对前端数据流整体认知,帮助大家在…

Ubuntu 20.04 本地Git仓库和Github突然连接不上

问题描述 问题出现在,我想要创建一个新的仓库并关联到Github时,出现了以下报错… 我一开始以为是公钥出了什么问题,就去重置了一下Github上的公钥… 但并没有用… 解决方案 参考链接:git添加公钥后报错sign_and_send_pubkey: s…

Java 应用: Reflect 封装,一次实现使用字符串查找字段、调用方法、打破 private 限制

Java 应用: Reflect 封装,一次实现使用字符串查找字段、调用方法、打破 private 限制 文章目录Java 应用: Reflect 封装,一次实现使用字符串查找字段、调用方法、打破 private 限制简介参考完整示例代码正文实现目标:ReflectUtils 工具类具体…