Re

news/2024/7/19 10:57:11 标签: Python, 爬虫

正则表达式

参考崔庆才爬虫;图片来源脚本之家
在这里插入图片描述

re.match

re.match尝试才能够字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none

re.match(pattern,string,flags=0)

最常规的匹配

import re

content="Hello 123 4567 World_This is a Regex Demo"
result=re.match('^Hello\s\d{3}\s\d{4}\s\w{10}.*Demo$',content)
print(result)
<_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>

泛匹配

import re

content="Hello 123 4567 World_This is a Regex Demo"
result=re.match("^Hello.*Demo$",content)
print(result)
print(result.group())               #输出匹配到的组
print(result.span())                #输出匹配到串的位置
<_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
Hello 123 4567 World_This is a Regex Demo
(0, 41)

匹配目标

import re

content="Hello 1234567 World_this is a Regex Demo"
result=re.match("^Hello\s(\d+)\sWorld.*Demo$",content)       #()会将匹配到的结果存到一个组中
print(result)
print(result.group(1))                                       #group(1)表示匹配到的第一个括号的内容,group(2)则是第二个......
print(result.span())
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_this is a Regex Demo'>
1234567
(0, 40)

贪婪匹配

import re

content="Hello 1234567 World_This is a Regex Demo"
result=re.match("^He.*(\d+).*Demo$",content)           #贪婪匹配从左到右尽可能的匹配更多的字符
print(result)
print(result.group(1))                                 #输出 7
print(result.span())
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
7
(0, 40)

非贪婪匹配

import re

content="Hello 1234567 World_This is a Regex Demo"
result=re.match("He.*?(\d+).*Demo$",content)           #非贪婪匹配 ?表示匹配尽量少的字符
print(result)
print(result.group(1))                                 #输出 1234567
print(result.span())
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
1234567
(0, 40)

匹配模式

import re

content="""Hello 1234567 World_This 
is a Regex Demo"""
result=re.match("^He.*?(\d+).*?Demo$",content,re.S)           #匹配换行符
print(result)
print(result.group(1))
print(result.span())

<_sre.SRE_Match object; span=(0, 41), match='Hello 1234567 World_This \nis a Regex Demo'>
1234567
(0, 41)

转义

import re


content="price is $5.00"
result=re.match("^price is $5.00$",content)                # $符在re中有特殊意义,如需使用该字符需要转义
print(result)

None
import re

content="price is $5.00"
result=re.match("^price is \$5.00",content)                 #转义 \$ 表示$字符
print(result)
print(result.group())
print(result.span())
<_sre.SRE_Match object; span=(0, 14), match='price is $5.00'>
price is $5.00
(0, 14)
总结:尽量使用泛匹配,使用括号得到匹配目标,尽量使用非贪婪模式,有换行符就用re.S

re.search

re.search扫描整个字符串并返回第一个成功的匹配
import re

content="Extra strings Hello 1234567 World_This is a Regex Demo Extra strings"
result=re.match("Hello.*?(\d+).*?Demo",content)
print(result)
None
import re

content="Extra strings Hello 1234567 World_This is a Regex Demo Extra strings"
result=re.search("Hello.*?(\d+).*?Demo",content)
print(result)
print(result.group(1))
print(result.span())
<_sre.SRE_Match object; span=(14, 54), match='Hello 1234567 World_This is a Regex Demo'>
1234567
(14, 54)
总结:为了匹配方便,能使用search就不用match

1.re.match() 从第一个字符开始找, 如果第一个字符就不匹配就返回None, 不继续匹配. 用于判断字符串开头或整个字符串是否匹配,速度快.

2.re.search() 会整个字符串查找,直到找到第一个匹配。并且立即返回。

匹配练习

import re

html="""
<html>
<head></head>
<body>
<div>
<ul>
<ll data-view="5" class="active">
    <a href="/3.mp3" singer="陈慧琳">记事本</a>
</ll>
<ll data-view="4" class="active">
    <a href="/3.mp3" singer="齐秦">往事随风</a>
</ll>
<ll data-view="6" class="active">
    <a href="/3.mp3" singer="beyond">往事随风</a>
</ll>
</ul>
</div>
</body>
</html>
"""
result=re.search('<ll.*?singer="(.*?)">(.*?)</a>',html,re.S)
print(result.group(1),result.group(2))
                                            
陈慧琳 记事本
import re

html="""
<html>
<head></head>
<body>
<div>
<ul>
<ll data-view="5" class="active">
    <a href="/3.mp3" singer="陈慧琳">记事本</a>
</ll>
<ll data-view="4" class="active"><a href="/3.mp3" singer="齐秦">往事随风</a>
</ll>
<ll data-view="6" class="active">
    <a href="/3.mp3" singer="beyond">往事随风</a>
</ll>
</ul>
</div>
</body>
</html>
"""
result=re.search('<ll.*?singer="(.*?)">(.*?)</a>',html)          #.号无法匹配换行符,在这里会匹配到齐秦,因为a标签与ll无换行
print(result.group(1),result.group(2))

齐秦 往事随风

re.findall

搜索字符串,以列表形式返回全部能匹配的子串
import re

html="""
<html>
<head></head>
<body>
<div>
<ul>
<ll data-view="5" class="active">
    <a href="/3.mp3" singer="陈慧琳">记事本</a>
</ll>
<ll data-view="4" class="active">
    <a href="/3.mp3" singer="齐秦">往事随风</a>
</ll>
<ll data-view="6" class="active">
    <a href="/3.mp3" singer="beyond">往事随风</a>
</ll>
</ul>
</div>
</body>
</html>
"""
result=re.findall('<ll.*?singer="(.*?)">(.*?)</a>',html,re.S)
print(result)
for info in result:
    print(info)
[('陈慧琳', '记事本'), ('齐秦', '往事随风'), ('beyond', '往事随风')]
('陈慧琳', '记事本')
('齐秦', '往事随风')
('beyond', '往事随风')
import re

html="""
<html>
<head></head>
<body>
<div>
<ul>
<ll data-view="5" class="active">
    <a singer="陈慧琳">记事本</a>
</ll>
<ll data-view="4" class="active">
    <a href="/3.mp3" singer="齐秦">往事随风</a>
</ll>
<ll data-view="6" class="active">
    <a href="/3.mp3" singer="beyond">光辉岁月</a>
</ll>
</ul>
</div>
</body>
</html>
"""
result=re.findall('<ll.*?>\s*?(a.*?>)?(\w+)(</a>)?\s*?</ll?',html,re.S)
print(result)
[('', '记事本', '</a>'), ('', '往事随风', '</a>'), ('', '光辉岁月', '</a>')]

re.sub

替换字符串中每一个匹配的子串后返回替换后的字符串
import re

content="Extra strings Hello 1234567 World_This is a Regex Demo Extra strings"
content=re.sub('\d+',"",content)
print(content)
Extra strings Hello  World_This is a Regex Demo Extra strings
import re

content="Extra strings Hello 1234567 World_This is a Regex Dmo Extra strings"
content=re.sub('(\d+)',r"\1 0000",content)              #\1 获取匹配到的第一个()括号内的串,后面加上0000替换原来的()括号内的串
print(content)
Extra strings Hello 1234567 0000 World_This is a Regex Dmo Extra strings
import re

html="""
<html>
<head></head>
<body>
<div>
<ul>
<ll data-view="5" class="active">
    <a href="/3.mp3" singer="陈慧琳">记事本</a>
</ll>
<ll data-view="4" class="active">
    <a href="/3.mp3" singer="齐秦">往事随风</a>
</ll>
<ll data-view="6" class="active">
    <a href="/3.mp3" singer="beyond">往事随风</a>
</ll>
</ul>
</div>
</body>
</html>
"""

content=re.sub("<a.*?>|</a>",'',html,re.S) #使用re.sub去除a标签
result=re.findall('<ll.*?>(.*?)</ll>',content,re.S)
print(content)
print(result)
<html>
<head></head>
<body>
<div>
<ul>
<ll data-view="5" class="active">
    记事本
</ll>
<ll data-view="4" class="active">
    往事随风
</ll>
<ll data-view="6" class="active">
    往事随风
</ll>
</ul>
</div>
</body>
</html>

['\n    记事本\n', '\n    往事随风\n', '\n    往事随风\n']

re.compile

将正则字符串编译成一个对象
import re

content="""Hello 1234567 World_This
is a Regex Demo"""
pattern=re.compile('Hello.*Demo',re.S)
result=re.match(pattern,content)
print(result)
result=re.match('Hello.*Demo',content,re.S)
print(result)
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This\nis a Regex Demo'>
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This\nis a Regex Demo'>

练习

import re
import requests

def getHTML(url):
    try:
        r=requests.get(url,timeout=10)
        r.raise_for_status
        r.encoding=r.apparent_encoding
        return r.text
    except:
        print("Exception")
        return None

def parseHTML(html):
    pattern=re.compile('<li.*?"cover">.*?href=(.*?).*?class="author">(.*?).*?year">(.*?).*?</li>',re.S)
    ls=re.match(pattern,html)
    print(ls)
    #for info in ls:
    #   url,name,date=info
    #   print(url,name,date)
     
if __name__=="__main__":
    url="https://book.douban.com/"
    html=getHTML(url)
    parseHTML(html)

None


http://www.niftyadmin.cn/n/961727.html

相关文章

我的openwrt学习笔记(一):OpenWrt简介

我的openwrt学习笔记(一):OpenWrt简介 关于 OpenWrt openwrt是嵌入式设备上运行的linux系统。OpenWrt 的文件系统是可写的,开发者无需在每一次修改后重新编译,令它更像一个小型的 Linux 电脑系统,也加快了开发速度。你会发现无论是 ARM, PowerPC 或 MIPS 的处理器,都…

展开多维向量

对于一个向量&#xff0c;里面的元素可能是一个向量或数值&#xff0c;要求将其展开为一维向量; 非递归解法&#xff0c;思路非常简单&#xff1a; a[[3,4,5],[5,6,[8,9]]];function spreadArr(arr){//展开平面向量//思路&#xff1a;使用arr本身的shift()和concat()方法&…

我的openwrt学习笔记(二):OpenWrt 开发环境搭建

首先我们首选的OpenWrt 编译环境是 Ubuntu,并且应尽量选择稳定的LTS版本,而不是更高版本的。这里我们推荐使用 Ubuntu 12.04 LTS或者Ubuntu 14.04 LTS作为编译平台,此平台必须要能稳定地接入网络。我们推荐您使用以下或更高的硬件配置: CPU:双核 1GHZ 或更高,建议采用双…

划分数组

快排的parition划分 class Solution:"""param nums: The integer array you should partitionparam k: An integerreturn: The index after partition"""def partitionArray(self, nums, k):if len(nums)0:return 0# write your code here"…

我的openwrt学习笔记(三):linux基础命令学习

我的openwrt学习笔记&#xff08;三&#xff09;&#xff1a;linux基础命令学习 在进行后续的学习openwrt 前&#xff0c;如果对linux的基础擦做命令不是特别熟悉的朋友&#xff0c;可以先回顾下linux的操作命令&#xff0c;这样在后续的学习中可以更加快捷。 网络上也有一些关…

我的openwrt学习笔记(四):OpenWrt源代码下载

我的openwrt学习笔记(四):OpenWrt源代码下载 获取源码,有svn或者GIT方式: #开发版 #svn co svn://svn.openwrt.org/openwrt/trunk #10.03 #svn co svn://svn.openwrt.org/openwrt/branches/backfire #12.09 #svn co svn://svn.openwrt.org/openwrt/branches/attitude_ad…

我的openwrt学习笔记(六):MTK的OpenWrt系统编译以及下载

本文的openwrt是MTK官方的OPENWRT,openwrt开源组织无法下载到,它与开源的openwrt相比更加的稳定,还有很多未上传的开源补丁,知道魅力了吧,哈哈。 1. 下载mtk官方MTK openwrt---mtksdk-openwrt-3.10.14-20150311-d021c937.tar.bz2 2. 解压openwrt源码包 linu…

git速度过慢

&#xff11;&#xff1a;设置git内部代理 git config --global http.proxy socks5://127.0.0.1:1080 git config --global https.proxy socks5://127.0.0.1:1080 2:域名限制问题 #映射git 151.101.72.249 http://global-ssl.fastly.Net 192.30.253.112 http://github.com 21…