爬虫技术之正则提取静态页面数据

爬虫技术之正则提取静态页面数据

news/2024/7/19 11:54:06 标签: 爬虫

在爬虫过程中，我们获取到了页面之后，通常需要做的就是解析数据，将数据持久化到数据库为我所用。如何又快又准确得提取有效数据？这是一门技术，看了我的博客之前可能略有难度，但各位大师看了我的博客之后，那只能说解析页面就像砍瓜切菜，喝水吃饭一般简单。

废话不说，直接搞示例，请看下面这个页面源码：

<tr><th>性別：</th><td>男</td></tr><tr>

来来来，写个python代码提取性别？
分析一下，这不就是td标签内的数据嘛？写一个正则，提取<td>男</td> 中间的中文。
正则得这么写，开头是<td>中间是要提取的内容，使用()括起来，不管中间是啥，()内就写.*?
最后以</td>结尾，想法是可以搞定的，上代码试试。
看代码：

# coding=utf-8

import re
html_string = '''<tr><th>性別：</th><td>男</td></tr><tr>'''
regex = r'<td>(.*?)</td>'

result = re.findall(regex,html_string)
print(result)

这个代码跑起来看看是牛还是马喽==>
在这里插入图片描述
果然是牛，🐂🐂🐂！
是不是感觉自己又行了，就是这么简单，后面慢慢试试复杂点页面，但都是解析方法从这个代码升级的，就是白开水，一眼望到底呀！

今天懒得写了，我得去钓鱼了。已经空军16天，今天必须破龟，明天来继续搞代码。

http://www.niftyadmin.cn/n/5421278.html

相关文章

websocket+心跳

websocket+心跳

1.直接上代码 let ws //websocket实例 let lockReconnect false //避免重复连接 let wsUrl //初始化websocket getWebSocketurl() async function getWebSocketurl() {try {// const data await getInfo()sid.value localStorage.getItem(Refresh-Token)wsUrl ws://192.…

阅读更多...

HarmonyOS NEXT应用开发之图片缩放效果实现

HarmonyOS NEXT应用开发之图片缩放效果实现

腾讯T10级高工技术，安卓全套VIP课程全网免费送：https://docs.qq.com/doc/DSG1vYnRxSElnU3hE 学习鸿蒙开发势在必行。鸿蒙开发可参考学习文档：https://qr21.cn/FV7h05 介绍图片预览在应用开发中是一种常见场景，在诸如QQ、微信、…

阅读更多...

深入理解React中的useState：函数组件状态管理的利器

深入理解React中的useState：函数组件状态管理的利器

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

阅读更多...

基于JAVA+ springboot实现的抗疫物质信息管理系统

基于JAVA+ springboot实现的抗疫物质信息管理系统

基于JAVA springboot实现的抗疫物质信息管理系统设计和实现博主介绍：多年java开发经验，专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域作者主页央顺技术团队 Java毕设项目精品实战案例《1000套》欢迎点赞收藏 ⭐留言 …

阅读更多...

WordPress建站入门教程：如何上传安装WordPress主题？

我们成功搭建WordPress网站后，默认使用的是自带的最新主题，但是这个是国外主题，可能会引用一些国外的资源文件，所以为了让我们的WordPress网站访问速度更快，强烈建议大家使用国产优秀的WordPress主题。今天boke112百…

阅读更多...

浏览器内核小知识

浏览器内核小知识

浏览器内核（Browser Engine）是浏览器的核心组成部分，负责解析HTML、CSS和JavaScript代码，并将其显示在用户的屏幕上。不同的浏览器使用不同的内核，例如Chrome使用的是Blink内核，Firefox使用的是Gecko内核&a…

阅读更多...

软考笔记--软件可靠性评价

软考笔记--软件可靠性评价

一.软件可靠性评价概述软件可靠性评价是软件可靠性活动的重要组成部分，即适用于软件开发过程，也可以针对最终软件系统。在软件开发过程中使用软件可靠性评价，可以使用软件可靠性模型，估计软件当前的可靠性，以确认是否…

阅读更多...

全量知识系统之程序类之3 目的-SEB的实例化程序生成 (百度AI答问)

全量知识系统之程序类之3 目的-SEB的实例化程序生成 (百度AI答问)

Q8. 问题2（针对前面的程序类）：前面提到，每个层次之间有着密切的内联这使得每一层上对应的每个程序类都可以使用同一个构造函数通过转换\映射和投影的不同方法相关联。每个层次上都需要一个协作程序来连接它们。它们都从同一个源…

阅读更多...

最新文章