【Python实战】Python采集小说文本内容

news/2024/7/19 9:40:36 标签: python, 爬虫

 前言

1b83b1d3fff541e6844ba7bfc4b8f724.gif

今天,我们将采集某小说数据,通过这个案例,加深我们对正则表达式的理解。我们今天来通过使用正则表达式来获取我们想要的文本。

环境使用

模块使用

  • requests

模块介绍

  • requests

        requests是一个很实用的Python HTTP客户端库,爬虫和测试服务器响应数据时经常会用到,requests是Python语言的第三方的库,专门用于发送HTTP请求,使用起来比urllib简洁很多。

  • parsel

        parsel是一个python的第三方库,相当于css选择器+xpath+re。

parsel由scrapy团队开发,是将scrapy中的parsel独立抽取出来的,可以轻松解析html,xml内容,获取需要的数据。

相比于BeautifulSoup,xpath,parsel效率更高,使用更简单。

  • re

        re模块是python


http://www.niftyadmin.cn/n/373598.html

相关文章

vuex三问

文章目录 一、什么是vuex?二、为什么使用vuex?三、如何使用vuex?1.首先安装vuex2.注册vue中3.实例化vuex的store4. 挂载在vue实例上5.在组件中就可以通过this.$store对vuex进行操作。 总结 一、什么是vuex? Vuex 是一个专为 Vue.…

《斯坦福数据挖掘教程·第三版》读书笔记(英文版) Chapter 9 Recommendation Systems

来源:《斯坦福数据挖掘教程第三版》对应的公开英文书和PPT Chapter 9 Recommendation SystemsRecommendation systems use a number of different technologies. We can classify these systems into two broad groups. Content-based systems examine properties…

“互联网的神经系统”——浅析消息中间件MOM

New Inter-Process Communication: Message-Oriented Middleware Author:Once Day Date:2023年5月17日 本文主要翻译于《Message-oriented Middleware: Agile Systems for IT Success (g2.com)》一文,仅供学习和研究之用! 参考文档: 面向…

Jdk17中文在线手册(建议收藏)

本身学习技术就比较难,再来一个英文版的API,就难上加难,经过几周的研究翻译,JDK17最新版中文在线手册搞定,不要看错了哈是JDK17不是JDK1.7,全网最新的只有JDK11,JDK17中文在线手册是第一次出现&…

领导者指南:用四步空杯学习法避免你的成就成为累赘

好的领导者需要不断学习。而优秀的领导者更知道什么时候忘记过去,才能在未来取得成功。经营任何成功都存在学习曲线。但是,一旦你开始依赖过去的成就,或者陷入过时的思维和实践,不再起作用,你必须退后一步——空杯学习…

网页JS自动化脚本(八)使用网页专属数据库indexedDB进行数据收集

我们在网页上进行的活动,往往都需要进行收集一些简单的数据,但是因为浏览器的安全原因,浏览器基本上是无法与本地的操作系统直接产生数据交互的,这本来就是一个由于安全问题生产的无解问题,在浏览器里面是内置了几种数据库的,其中一种就是indexedDB,可以用来储存一些非常小的数…

机器学习-线性代数-逆映射与向量空间

逆映射与向量空间 一、逆映射 矩阵的本质是映射。对于一个 m n m n mn的矩阵,乘法 y A x y Ax yAx的作用就是将向量从 n n n维原空间中的 x x x坐标位置,映射到 m m m维目标空间的 y y y坐标位置,这是正向映射的过程。那么,…

hive:创建自定义python UDF

由于Hadoop框架是用Java编写的,大多数Hadoop开发人员自然更喜欢用Java编写UDF。然而,Apache也使非Java开发人员能够轻松地使用Hadoop,这是通过使用Hadoop Streaming接口完成的! Java-UDF vs. Python-UDF Java 实现 UDF,需要引用…