爬取奇迹秀工具箱里面的文本和软件网盘链接

news/2024/7/19 11:20:52 标签: 爬虫, python, windows

1.爬取的网址:http://www.qijishow.com/down/index.html
在这里插入图片描述
2.完整代码展示

python">from selenium import webdriver
import time

url = 'http://www.qijishow.com/down/index.html'
opt = webdriver.ChromeOptions()
opt.add_argument("--headless")
driver = webdriver.Chrome(chrome_options=opt)
# driver = webdriver.Chrome()
driver.get(url)
k = driver.find_elements_by_class_name("sm-6")

for i in range(1, len(k) + 1):
    print(i)
    # try:
    print("---------------开始----------------------")
    a = driver.find_element_by_xpath(
        f'//*[@id="page"]/div[4]/div[1]/div[3]/div/div[{i}]/div/a/div[1]/img').get_attribute("data-src")
    a1 = 'http://www.qijishow.com/down/' + str(a)
    b = driver.find_element_by_xpath(f'//*[@id="page"]/div[4]/div[1]/div[3]/div/div[{i}]/div/a/div[2]').text
    print("软件图片地址链接:", a1)
    print("软件名字:", b)
    time.sleep(2)
    # driver.find_element_by_xpath(f'//*[@id="page"]/div[4]/div[1]/div[3]/div/div[{i}]/div/a/div[1]/img').click()

    ele=driver.find_element_by_xpath(f'//div[@class="row"]/div[{i}]')
    driver.execute_script("arguments[0].scrollIntoView()", ele)
    ele.click()
    print("11111111111")
    time.sleep(2)
    windows = driver.window_handles
    driver.switch_to.window(windows[-1])
    p = driver.find_element_by_xpath('//*[@id="resources"]').text
    print(p)
    u = driver.find_elements_by_xpath('//img')
    src = []
    for j in u:
        o = j.get_property('src')
        src.append(o)
        print('文章图片地址:', o)
    r = driver.find_element_by_xpath('//*[@id="download"]/a[@id="local"]').get_attribute('href')
    print("官网地址:", r)
    try:
        x = driver.find_element_by_xpath('//*[@id="zoom_download"]/div[2]/p').text
        y = driver.find_element_by_xpath('//*[@id="zoom_download"]/div[2]/a[1]').get_attribute('href')
        print(x, y)
    except:
        x = "没有"
        y = "没有"
    try:
        z = driver.find_element_by_xpath('//*[@id="zoom_download"]/div[3]/p').text
        h = driver.find_element_by_xpath('//*[@id="zoom_download"]/div[3]/a[1]').get_attribute('href')
        print(z, h)
    except:
        z = "没有"
        h = '没有'
    with open("爬虫/{}.txt".format(i), "w", encoding="utf-8") as f:
        f.write("软件图片地址链接:" + a1 + '\n')
        f.write("软件名字:" + b + '\n')
        f.write(p + '\n')
        f.write('文章图片地址:' + str(src) + '\n')
        f.write("官网地址:" + r + '\n')
        f.write(x + "Mac版百度网盘地址:" + y + '\n')
        f.write(z + "Win版百度网盘地址:" + h)
    driver.close()
    driver.switch_to.window(windows[0])
    print("---------------结束----------------------")
    # except:
    #     pass

3.爬取的文档展示

在这里插入图片描述
4.爬取并保存为表格完整代码

python">from selenium import webdriver
import time
import csv
url = 'http://www.qijishow.com/down/index.html'
opt = webdriver.ChromeOptions()
# opt.add_argument("--headless")
# driver = webdriver.Chrome(chrome_options=opt)
driver = webdriver.Chrome()
driver.get(url)
k = driver.find_elements_by_class_name("sm-6")
with open("交互设计.csv", "w", newline="", encoding="utf-8-sig") as datacsv:
    csvwriter = csv.writer(datacsv, dialect=("excel"))
    csvwriter.writerow(["软件图片地址链接", "软件名字", "富文本", "官网地址", "Mac版下载", "Win版下载"])
    for i in range(1, len(k) + 1):
        l=[]
        print(i)
        try:
            print("---------------开始----------------------")
            a = driver.find_element_by_xpath(
                f'//*[@id="page"]/div[4]/div[5]/div[3]/div/div[{i}]/div/a/div[1]/img').get_attribute("data-src")
            a1 = 'http://www.qijishow.com/down/' + str(a)
            b = driver.find_element_by_xpath(f'//*[@id="page"]/div[4]/div[5]/div[3]/div/div[{i}]/div/a/div[2]').text
            print("软件图片地址链接:", a1)
            print("软件名字:", b)
            l.append(a1)
            l.append(b)
            # driver.find_element_by_xpath(f'//*[@id="page"]/div[4]/div[1]/div[3]/div/div[{i}]/div/a/div[1]/img').click()
            ele=driver.find_element_by_xpath(f'//*[@id="page"]/div[4]/div[5]/div[3]/div/div[{i}]/div/a/div[1]/img')
            driver.execute_script("arguments[0].scrollIntoView()", ele)
            time.sleep(2)
            ele.click()
            windows = driver.window_handles
            driver.switch_to.window(windows[-1])
            p = driver.find_element_by_xpath('//*[@id="resources"]').get_attribute('outerHTML')
            print(p)
            l.append(p)
            r = driver.find_element_by_xpath('//*[@id="download"]/a[@id="local"]').get_attribute('href')
            print("官网地址:", r)
            l.append(r)
            try:
                x = driver.find_element_by_xpath('//*[@id="zoom_download"]/div[2]/p').text
                y = driver.find_element_by_xpath('//*[@id="zoom_download"]/div[2]/a[1]').get_attribute('href')
                print(x, y)
                l.append(x+" "+y)
            except:
                x = "没有"
                y = "没有"
                l.append(x+" "+y)
            try:
                z = driver.find_element_by_xpath('//*[@id="zoom_download"]/div[3]/p').text
                h = driver.find_element_by_xpath('//*[@id="zoom_download"]/div[3]/a[1]').get_attribute('href')
                print(z, h)
                l.append(z+" "+h)
            except:
                z = "没有"
                h = '没有'
                l.append(z+" "+h)
            csvwriter.writerow(l)
            driver.close()
            driver.switch_to.window(windows[0])
            print("---------------结束----------------------")
        except:
            pass

5.爬取的表格展示
在这里插入图片描述


http://www.niftyadmin.cn/n/1017786.html

相关文章

【纯干货】中国的支付清算体系是怎么玩的?

作者:Allen Chen链接:https://zhuanlan.zhihu.com/p/21249493来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。我一直对支付感兴趣。2015年,因为工作需要,我接触过好多第三方…

yolo3-pytorch头盔检测-可直接运行和自己训练

yolo3-pytorch头盔检测,框架中包括已经训练好的头库模型和可供训练的数据集,可直接运行和自己训练 1.使用环境cuda 10.0,环境装好后使用nvcc -V检测,出现以下说明cuda安装完成 2.下载框架,yolo3-pytorch头盔检测 3.…

2021年9月8日,完美解决selenium自动处理滑块问题方案,只有想不到没有做不到!

1.有一天我需要使用自动化填写表单,但是,当我保存时,碰到了滑块,只能自己手动滑动,我自己心有不甘,决定自己破解它,不破解自动验证滑块成功誓不罢休,于是我开始思考。。。 &#xff…

yolov4-tiny-pytorch版的火焰检测,可完全实时检测,效果超乎你想象!!!

yolov4-tiny-pytorch版的火焰检测,框架中包括已经训练好的火焰模型,该火焰模型是通过训练2000多张火焰数据集训练而成,下载后可直接运行检测 1.使用环境cuda 10.0,环境装好后使用nvcc -V检测,出现以下说明cuda安装完成…

2021年9月22号,实战烧写树莓派sd卡的系统

1.下载格式化u盘的软件,软件地址,阿里云盘地址:https://www.aliyundrive.com/s/ux2re9FFxd2 2.将有sd卡的读写盘插入电脑接口 3.打开软件,点击格式化即可格式化sd卡 4.下载ubantu系统镜像,以便等下烧写进入sd卡&…

2021年9月26日windows 通过vnc-viewer软件连接树莓派并且设置树莓派自启vnc服务,完美实现电脑中操作树莓派!!!

一.笔记本电脑(windows系统)通过vnc服务连接树莓派 1.笔记本中下载vnc-viewer软件,地址为https://www.realvnc.com/en/connect/download/viewer/ 2.下载好后安装vnc-viewer软件,按照下面的指示一步步安装 3.安装好后将已经…

在树莓派4b中如何下载python库,实际测试结果真实可靠!

1.打开树莓派图形界面后,点击终端,这时大多数教程都是要我们改换新的下载源,但是我这边亲测本身的下载源是可以下载我们需要的依赖库的,而我改变成国内下载源时,很多我需要的依赖库都下载不了,提示说没有&a…

记录一下在树莓派上设置静态ip后出现的问题

1.在树莓派上设置静态ip后,我的电脑连接不上树莓派的vnc服务,树莓派上面明确vnc服务已开启,说明是设置静态ip时,组网出现了问题,于是我立刻回复设置静态ip的内容,最后成功。 2.总结,静态ip不能随…