Web爬虫|入门教程之正则表达式

news/2024/7/19 9:22:13 标签: 爬虫, python, 正则表达式

网络爬虫开发实战源码:https://github.com/MakerChen66/Python3Spider

原创不易,本文禁止抄袭、转载,多年爬虫实战开发经验总结,侵权必究!

目录

    • 一、正则表达式引入
    • 二、正则表达式使用
    • 三、匹配方法
      • 3.1 match()
      • 3.2 search()
      • 3.3 findall()
      • 3.4 sub()
      • 3.5 compile()
    • 四、匹配模式
      • 4.1 匹配目标
      • 4.2 通用匹配
      • 4.3 贪婪与非贪婪
      • 4.4 修饰符
      • 4.5 转义匹配
      • 4.6 结语
    • 五、原文链接
    • 六、作者Info

一、正则表达式引入

什么是正则表达式
正则表达式是处理字符串的强大工具,有属于自己的语法结构,实现字符串的检索、替换、匹配验证都不在话下。对于爬虫来说,从HTML里提取想要的信息就非常方便了

正则表达式适用情况
网站开发、爬虫开发、游戏开发、数据库开发等,总言之,只要包含有字符串,就能使用正则表达式

正则表达式导入
正则表达式在Python中有自带的标准库re,不用安装,只需导入即可

python">import re



二、正则表达式使用

实例引入
打开开源中国提供的在线正则表达式测试网站:
https://tool.oschina.net/regex/

输入待匹配的字符,然后选择常用的正则表达式或自己写,就可以得出相应的匹配结果了。例如,这里输入待匹配的文本如下:

python">hello,my phone number is 010-85623654 and email is mackerchen@aliyun.com,and my website is https://makerchen.com

这段字符串包含了电话号码、邮箱和URL,接下来就用正则表达式将其提取出来,下如图:
在这里插入图片描述
在网页右侧选择“匹配网址URL”,就可以看到下方出现了文本中的URL。如果选择“匹配Email地址”,就可以看到下方出现了文本中的E-mail

这些都是运用了正则表达式匹配,也就是用一定的规则将特定的文本提取出来。比如URL开头是协议类型,然后是冒号加双斜线,最后是域名加路径。另外,电子邮件开头是一段字符串,然后是一个@符号,最后是某个域名,这是有特定的组成格式的

对于URL来说,可以用下面的正则表达式匹配:

python">[a-zA-z]+://[^\s]*

用这个正则表达式去匹配一个字符串,如果这个字符串中包含类似URL的文本,那就会被提取出来

这里面都是有特定的语法规则的。比如a-z代表匹配任意的小写字母,\s表示匹配任意的空白字符,而上面的^\s表示匹配非空白字符,等于\S,*就代表匹配前面的字符任意多个

下表列出了常用的匹配规则:

\w匹配字母、数字及下划线
\W匹配不是字母、数字及下划线的字符
\s匹配任意空白字符,等价于[\t\n\r\f]以及^\S
\S匹配任意非空字符,等价于^\s
\d匹配任意数字,等价于[0-9]
\D匹配任意非数字的字符
\A匹配字符串开头
\Z匹配字符串结尾,如果存在换行,只会匹配换行前的结束字符串
\z匹配字符串结尾,如果存在换行,同时还会匹配换行符
\G匹配最后匹配完成的位置
\n匹配一个换行符
\t匹配一个制表符
^匹配一行字符串的开头
$匹配一行字符串的结尾
.匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符
[…]用来表示一组字符,单独列出,比如[amk]匹配a、m或k
[^…]不在[]中的字符,比如[^abc]匹配除了a、b、c之外的字符
*匹配0个或多个表达式
+匹配0个或多个表达式
?匹配0个或1个前面的正则表达式定义的片段,非贪婪方式
{n}精确匹配n个前面的表达式,比如\d{10}表示匹配10个数字
{n,m}匹配n到m次由前面正则表达式定义的片段,贪婪方式
ab
()匹配括号内的表达式,也表示一个组

看完之后,可能会有点晕晕的,不用担心,后面会详细讲解常见规则的用法

注意:正则表达式不是Python独有的,在其他编程语言也可以使用,只是Python的re库提供了整个正则表达式的实现。同样,爬虫也可以用其他编程语言实现,比如java,但是Python提供的爬虫库比其他编程语言要丰富的多

三、匹配方法

3.1 match()

先介绍第一个常用的匹配方法—match(),有两个形参,分别是正则表达式以及要匹配的字符串

match()方法从字符串开头位置匹配正则表达式,如果匹配成功就返回结果,否则返回None,示例如下:

python">import re

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}', content)
print(result)
print(result.group())
print(result.span())

输出结果如下:

python">41
<_sre.SRE_Match object; span=(0, 25), match='Hello 123 4567 World_This'>
Hello 123 4567 World_This
(0, 25)

(^Hello\s\d\d\d\s\d{4}\s\w{10})
用上面这个正则表达式来匹配这个长字符串。开头的^是匹配字符串的开头,也就是以Hello开头;然后\s匹配空白字符;\d匹配数字,3个\d匹配123;然后再写1个\s匹配空格;后面还有4567,我们其实可以依然用4个\d来匹配,但是这么写比较烦琐,所以后面可以跟{4}以代表匹配前面的规则4次,也就是匹配4个数字;然后后面再紧接1个空白字符,最后\w{10}匹配10个字母及下划线。我们注意到,这里其实并没有把目标字符串匹配完,不过这样依然可以进行匹配,只不过匹配结果短一点而已

从打印输出结果,可以看到结果是SRE_Match对象,这证明成功匹配。该对象有两个方法:group()方法可以输出匹配到的内容,结果是Hello 123 4567 World_This,这恰好是正则表达式规则所匹配的内容;span()方法可以输出匹配的范围,结果是(0, 25),这就是匹配到的结果字符串在原字符串中的位置范围

3.2 search()

前面说过match()方法是从字符串的开头开始匹配的,该匹配方法一旦开头不匹配,整个匹配就会失败。这里有另外一个方法search(),它在匹配时会扫描整个字符串,然后返回第一个成功匹配的结果,如果搜索完了还没有找到就返回None

python">import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.search('Hello.*?(\d+).*?Demo', content)
print(result)

输出结果如下:

python"><_sre.SRE_Match object; span=(13, 53), match='Hello 1234567 World_This is a Regex Demo'>

为了匹配方便,我们尽量使用search()方法。如果把上面代码的search改为match,输出结果就为None

3.3 findall()

前面所说的search()方法会返回第一个符合正则表达式的内容,但如果我们想要获取匹配正则表达式的所有内容,就需要用到findall()方法了,示例如下:

python">import re

html = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>'''

我们想要获取上面HTML文本中所有a节点的超链接、歌手和歌名,就可以将search()方法换成findall()方法,返回结果是列表类型,需要遍历一下来获取列表中每一组的内容,代码如下:

python">results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>', html, re.S)
print(results)
print(type(results))
for result in results:
    print(result)
    print(result[0], result[1], result[2])

输出结果如下:
在这里插入图片描述
可以看到,findall()方法返回的类型是“list”,列表中的每个元素都是元组类型,用对应的索引取出即可

3.4 sub()

我们使用正则表达式提取信息,有时候还需要修改文本,这时就可以用到sub()方法,它的作用与replace()方法相同,不过用法不同并且使用replace()方法更加繁琐,所以推荐使用sub()方法。示例如下:

python">import re

content = '54aK54yr5oiR54ix5L2g'
content = re.sub('\d+', '', content)
print(content)

sub()方法有三个形参,第一个是正则表达式,表示要匹配的内容,第二个参数为要替换成的字符串(可以为空),第三个参数是原字符串。上面表示将数字替换成空,也就是将数字去掉

输出结果如下:

python">aKyroiRixLg



3.5 compile()

前面所讲的方法都是用来处理字符串的方法,最后介绍一下compile()方法,该方法可以将正则表达式字符串转换成正则表达式对象,以便在后面的匹配中复用

示例如下:

python">import re

content1 = '2016-12-15 12:00'
content2 = '2016-12-17 12:55'
content3 = '2016-12-22 13:21'
pattern = re.compile('\d{2}:\d{2}')
result1 = re.sub(pattern, '', content1)
result2 = re.sub(pattern, '', content2)
result3 = re.sub(pattern, '', content3)
print(result1, result2, result3)

这里有3个日期,我们想分别将3个日期中的时间去掉,这时可以借助sub()方法。该方法的第一个参数是正则表达式,但是这里没有必要重复写3个同样的正则表达式,此时可以借助compile()方法将正则表达式编译成一个正则表达式对象,以便复用

输出结果如下:

python">2016-12-152016-12-172016-12-22

另外,compile()还可以传人修饰符,例如re.S等修饰符,这样在search()、findall()等方法中就不需要额外传了。所以compile()方法可以说是给正则表达式做了一层封装,以便我们更好地复用


四、匹配模式

4.1 匹配目标

在匹配方法中我们用match()方法可以得到匹配到的字符串内容,但是如果想从字符串中提取一部分内容该怎么办呢?就像最前面的实例一样,从一段文本中提取出邮件或电话号码等内容

这里可以使用()括号将想提取的子字符串括起来,()实际上标记了一个子表达式的开始和结取位置,被标记的每个子表达式会依次对应每一个分组,调用group()方法传入分组的索引即可获取提取的结果。示例如下:

python">import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld', content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())

这里我们想把字符串中的1234567提取出来,此时可以将数字部分的正则表达式用()括起来,然后调用了group(1)获取匹配结果

输出结果如下:

python"><_sre.SRE_Match object; span=(0, 19), match='Hello 1234567 World'>
Hello 1234567 World
1234567
(0, 19)

可以看到,我们成功得到了1234567,这里用的是group(1),它与group()有所不同,后者会输出完整的匹配结果,而前者会输出第一个被()包围的匹配结果。假如正则表达式后面还有()包括的内容、那么可以依次用group(2)、group(3)等来获取

4.2 通用匹配

刚才我们写的正则表达式其实比较复杂,出现空白字符我们就写\s匹配,出现数字我们就用\d匹配,这样的工作量非常大。其实完全没必要这么做,因为还有一个万能匹配可以用,那就是.(点星)。其中.(点)可以匹配任意字符(除换行符,(星)代表匹配前面的字符无限次,所以它们组合在一起就可以匹配任意字符了。有了它,我们就不用挨个字符地匹配了

接着上面的例子,我们可以改写一下正则表达式

python">import re

content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^Hello.*Demo$', content)
print(result)
print(result.group())
print(result.span())

我们将中间部分直接省略,用.*来代替,最后加一个结尾字符串就好了,输出结果如下:

python"><_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
Hello 123 4567 World_This is a Regex Demo
(0, 41)

group()方法输出了匹配的全部字符串,也就是说我们写的正则表达式匹配到了目标字符串的全部内容;span()方法输出(0, 41),这是整个字符串的长度

因此,我们可以使用.*简化正则表达式的书写

4.3 贪婪与非贪婪

使用上面的通用匹配.*时,可能有时候匹配到的并不是我们想要的结果。如下:

python">import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$', content)
print(result)
print(result.group(1))

这里我们依然想获取中间的数字,所以中间依然写的是(\d+)。而数字两侧由于内容比较杂乱,所以想省略来写,都写成.。最后,组成^He.(\d+).*Demo$,看样子并没有什么同题。我们看下输出结果:

python"><_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
7

奇怪的事情发生了,我们只得到了7这个数字,这是怎么回事呢?

这里就涉及一个贪婪匹配与非贪婪匹配的问题了。在贪婪匹配下,.*会匹配尽可能多的字符正则表达式中,.*后面是\d+,也就是至少一个数字,并没有指定具体多少个数字,因此,.*就尽可能匹配多的字符,这里就把123456匹配了,给\d+留下一个可满足条件的数字7,最后得到的内容就只有数字7了

但这很明显会给我们带来很大的不便。有时候,匹配结果会莫名其妙少了一部分内容。其实,这里只需要使用非贪婪匹配就好了。非贪婪匹配的写法是.*?,多了一个?,那么它可以达到怎样的效果?

我们再用实例看一下:

python">import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$', content)
print(result)
print(result.group(1))

我们只是将.转换成.?,就变成了非贪婪匹配。输出结果如下:

python"><_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
1234567

此时就可以成功获取1234567了。原因可想而知,贪婪匹配是尽可能匹配多的字符,非贪婪匹配就是尽可能匹配少的字符。当.?匹配到Hello后面的空白字符时,再往后的字符就是数字了,而\d+恰好可以匹配,那么这里.?就不再进行匹配,交给\d+去匹配后面的数字。所以这样.*?匹配了尽可能少的字符,\d+的结果就是1234567了

所以说,在做匹配的时候,字符串中间尽量使用非贪婪匹配,也就是用.?来代替.,以免出现匹配结果缺失的情况

但是这里需要注意,如果匹配的结果在字符串结尾,.*?就有可能匹配不到任何内容了,此时需要改成.*

4.4 修饰符

正则表达式可以包含一些可选标志修饰符来控制匹配的模式。示例如下:

python">import re

content = '''Hello 1234567 World_This
is a Regex Demo
'''
result = re.match('^He.*?(\d+).*?Demo$', content)
print(result.group(1))

和上面的例子相似,我们只是在字符串中加了换行符,正则表达式还是一样的,用来匹配其中的数字。看一下输出结果:

python">AttributeError: 'NoneType' object has no attribute 'group'

运行直接报错,也就是说正则表达式没有匹配到这个字符串,返回结果为None,而我们又调用了group()方法导致AttributeError

那么,为什么加了一个换行符就匹配不到了呢?这是因为,匹配的是除换行符之外的任意字符,当遇到换行符时,.*?就不能匹配了,所以导致匹配失败。这里只需加一个修饰符re.S,即可修正这个错误:

python">result = re.match('^He.*?(\d+).*?Demo$', content,re.S)

这个修饰符的作用是使.匹配包括换行符在内的所有字符。此时输出结果如下:

python">1234567

re.S在网页匹配中经常用到。因为HTML节点经常会有换行,加上它,就可以匹配节点与节点之间的换行了

另外,还有一些修饰符,如下表所示:

re.I使匹配对大小写不敏感
re.L本地化识别匹配
re.M多行匹配,影响^和$
re.S使.匹配包括换行符在内的所有字符
re.U根据Unicode字符集解析字符,影响\w、\W、\b、\B
re.X给予更加灵活的正则表达式格式

4.5 转义匹配

正则表达式中定义了许多匹配模式,如.匹配包括换行符在内的所有字符,但是如果目标字符串里面就包含.,那该怎么办呢?

这时就需要用到转义匹配了,如下所示:

python">import re

content = '(百度)www.baidu.com'
result = re.match('\(百度\)www\.baidu\.com', content)
print(result)

当遇到用于正则匹配模式的特殊字符时,在前面加反斜线转义一下即可。这里用.来匹配,输出结果如下:

python"><_sre.SRE_Match object; span=(0, 17), match='(百度)www.baidu.com'>

可以看到,这里成功匹配到了原字符串

这些是写正则表达式常用的匹配模式,掌握它们对写正则表达式匹配非常有帮助

4.6 结语

到此为止,正则表达式的基本用法就介绍完了,后面会通过具体的实例来讲解正则表达式的用法,包括使用正则表达式爬取猫眼电影数据、实习僧数据等。请看Web爬虫对应的实战文章


五、原文链接

本人原创公众号原文链接:阅读原文

原创不易,如果觉得有点用,希望可以随手点个赞,拜谢各位老铁!

六、作者Info

作者:小鸿的摸鱼日常,Goal:让编程更有趣!

原创微信公众号:『小鸿星空科技』,专注于算法、爬虫,网站,游戏开发,数据分析、自然语言处理,AI等,期待你的关注,让我们一起成长、一起Coding!

转载说明:本文禁止抄袭、转载 ,违者必究!


http://www.niftyadmin.cn/n/1870633.html

相关文章

Web爬虫|入门实战之实习僧(编码反爬)

原创不易&#xff0c;本文禁止抄袭、转载&#xff0c;多年爬虫实战开发经验总结&#xff0c;侵权必究&#xff01; 目录一、爬虫任务二、解析三、源码下载四、作者Info一、爬虫任务 任务背景&#xff1a;爬取实习僧网站Python实习数据 任务目标&#xff1a;利用解析库Beautifu…

初级数据分析师-必知

1.数据分析的定义&#xff1a;数据分析的目的是把隐藏的在一大批看似杂乱无章的数据背后的信息集中提炼出来&#xff0c;总结出所研究出的对象的一大批内在规律。数值也称为观测值&#xff0c;通过实验&#xff0c;测量&#xff0c;观察&#xff0c;调查等方式获取结果&#xf…

Web爬虫|入门教程解析库lxml+XPth选择器

网络爬虫开发实战源码&#xff1a;https://github.com/MakerChen66/Python3Spider 原创不易&#xff0c;本文禁止抄袭、转载&#xff0c;多年爬虫实战开发经验总结&#xff0c;侵权必究&#xff01; 目录一、XPth引入二、XPth使用2.1 XPth概览2.2 XPath常用规则2.3 安装三、XPt…

Web爬虫|入门教程解析库pyquery

网络爬虫开发实战源码&#xff1a;https://github.com/MakerChen66/Python3Spider 原创不易&#xff0c;本文禁止抄袭、转载&#xff0c;多年爬虫实战开发经验总结&#xff0c;侵权必究&#xff01; 目录一、pyquery引入1.1 什么是pyquery?1.2 安装pyquery1.3 导入pyquery二、…

hello.txt怎么用python运行

交互器写的代码当我们关闭交互器模式&#xff0c;代码直接就不在了&#xff0c;如果用txt文件保存大家觉得如何&#xff1b; 我们怎么用python运行一个txt文件&#xff0c;如果打开方式直接选择python交互器模式&#xff0c;打开发现一闪而过&#xff0c;根本看不见&#xff0c…

python:ERROR: Could not find a version that satisfies the requirement requests

1. 错误情况错误1&#xff1a; 错误2 按照提示所示是其中一个原因是pip版本过低&#xff0c; 2.更新pip需要更新pip&#xff1a; python -m pip install --upgrade pip由于python国内网络不稳定&#xff0c;一直报错&#xff0c;升级了很多次才成功。 或者直接改成国内镜像…

linux环境ubtuntu14下安装python3

命令安装教程 打开自己安装的linux&#xff0c;安装完成ubtuntu。使用快捷键【CtrlAltT】打开虚拟机终端。 将虚拟切换到root用户&#xff0c;直接命令&#xff1a;“sudo su” 即可切换。如果不切换到root用户&#xff0c;每次执行命令&#xff0c;在命令前加入sudo也行&…

python爬虫实战1-基础篇1

1.爬虫入门爬虫按照系统结构和实现技术分类&#xff1a;通用网络爬虫、聚焦网络爬虫&#xff0c;增量式网络爬虫和深层网络爬虫。 通用网络爬虫用途&#xff1a;目标资源就是全互联网中&#xff0c;爬取数量巨大&#xff0c;对爬取性能要求非常高&#xff0c;用于大型搜索引擎…