【Selenium爬取小说】

news/2024/7/19 9:45:00 标签: selenium, 测试工具, 爬虫, 爬山算法

Selenium爬取小说

  • 确定url
  • 进行分析页面在爬取
  • 爬虫代码

确定url

找到你所需要的网站 然后进行分析检查 。
==注意: 进行搜索元素时 会有一个ctrl+f的操作
看class 或者 id 后面等于的值的时候 match 不一定是1 但是只要 这个标签下id=的这个值是唯一标识的即可 ,因为你搜索的是全部的整个页面下的这个值 但是class[id=xxx]这个会可能是唯一的。

进行分析页面在爬取

可以发现都在dd标签下
在这里插入图片描述
多层爬取 进入这个页面 然后爬取这一章的内容
在这里插入图片描述
可以发现内容都在这个标签下
在这里插入图片描述

我们打开一个文件接受这个文本即可

爬虫代码

import time
from selenium import webdriver
from selenium.webdriver.common.by import By

file = open('./output/xxx/明克街13号.txt','a',encoding= 'utf-8')
driver = webdriver.Firefox()
url = 'https://www.xxxxx.bz/book/54529/'
driver.get(url)
dd_list =driver.find_elements(By.XPATH,"//div[@id='list']/dl/dd")
print(dd_list)
number = 1
for i in range(12,len(dd_list)):
    print(f'爬取第{number}章')
    detail_url = dd_list[i].find_element(By.XPATH,'a').get_attribute('href')
    print(detail_url)
    driver_chmo = webdriver.Chrome()
    driver_chmo.get(detail_url)
    response = driver_chmo.find_element(By.XPATH,'//div[@id="content"]')
    print(response.text)
    file.write(response.text+f'\n   第{number}章   \n')
    number = number + 1
    time.sleep(3)
file.close()

爬取的结果
在这里插入图片描述
欢迎批评指正


http://www.niftyadmin.cn/n/5244281.html

相关文章

PHP数组面试题

PHP数组面试题 1. 创建一个包含多个元素的数组&#xff0c;并打印输出数组的内容。 <?php $array array(apple, banana, orange); print_r($array); ?>2. 如何访问数组中的特定元素&#xff1f; <?php $array array(apple, banana, orange); echo $array[1]; …

linux常用命令的学习

1)echo -n newline 不打印尾随的换号&#xff1b; -e 转义字符打印&#xff1b; namexx echo $name echo $? //打印上一个命令的退出状态码 echo $hello //单引号在shell里面是强引用; 命令"ll \"中的\是续行符&#xff1b; echo \n 中&#xff0c;\当续行符了&…

基于ssm学院党员管理系统论文

摘 要 互联网发展至今&#xff0c;无论是其理论还是技术都已经成熟&#xff0c;而且它广泛参与在社会中的方方面面。它让信息都可以通过网络传播&#xff0c;搭配信息管理工具可以很好地为人们提供服务。针对鄂尔多斯应用技术学院党员信息管理混乱&#xff0c;出错率高&#x…

Java 22种设计模式详解

22种设计模式详解 创建型模式单例模式工厂方法模式抽象工厂模式建造者模式原型模式 结构型模式适配器模式桥接模式组合模式装饰器模式代理模式外观模式享元模式享元模式原理&#xff1a;享元模式角色&#xff1a;示例代码&#xff1a; 行为型模式模板方法模式原理角色示例代码命…

Http请求(bug)——路径变量传参遇到特殊符号的问题 URL中的#,?,符号作用

前言 本篇博客分析路径变量传参遇到特殊符号的问题&#xff0c;阐述了URL中的#&#xff0c;&#xff1f;&#xff0c;&符号作用。 目录 前言引出路径变量传参遇到特殊符号的问题问题描述问题分析 URL中的 #&#xff0c;&#xff1f;&#xff0c;&符号的作用URL中# 的作…

【蓝桥杯省赛真题50】Scratch智能计价器 蓝桥杯scratch图形化编程 中小学生蓝桥杯省赛真题讲解

目录 scratch智能计价器 一、题目要求 编程实现 二、案例分析 1、角色分析

易点易动:提升企业固定资产盘点效率的利器

在过去&#xff0c;企业的资产盘点工作通常依赖于纸质表格和多人参与&#xff0c;耗时费力且容易出错。然而&#xff0c;随着企业规模的扩大和资产增多&#xff0c;传统的盘点方式已经无法满足需求。为了提高固定资产管理的准确性和效率&#xff0c;大型企业纷纷选择易点易动作…

Centos7及Ubuntu系统安装指定版本dockerdocker-compose安装

Centos7系统 docker指定版本安装【官方文档步骤】 官方文档地址&#xff1a;https://docs.docker.com/engine/install/centos/ # 1.安装yum工具及设置docker-ce镜像库 sudo yum install -y yum-utils# 国外的镜像下载太慢了改成阿里云镜像库 sudo yum-config-manager --add-rep…