1 关于：re / regex / regular expression

1.1 什么是正则表达式

1.2 在python中安装正则模块

1.2.1 python里一般都默认安装了 re正则模块，可以先查看确认下

1.2.2 如果没有安装，可以按照正则库regex, pip install regex

1.3 在python中导入 re : import re

2 正则表达式的相关符号

2.1 行定位符

2.2 元字符 (注意是反斜杠\)

2.3 量词 \次数 \限定符号 : * + ? {}

2.4 字符类/字符集合: 中括号 [ ]

2.5 排除字符 [^ ]

2.6 选择字符 |

2.7 转义字符反斜杠 \

2.8 分组符号 ()

2.9 正则表达式需要用引号"" 包裹起来

2.9.1 如果有特殊符号，表达式前还要注意加 r

2.9.2 无论是正则字符串，还是目标字符串，都记得要加 r

2.10 贪婪模式 / 非贪婪模式

3 正则表达式的方法

3.1 匹配和查找相关

3.2 相同点和差别

3.2.1 返回正则对象

3.2.2 不同的查找方法

3.2.3 不同的查找方法

3.2.4 不同的分割方法

3.3 re.match()

3.3.1 re 里大多数人接触第一个方法

3.3.2 MatchObject 对象的属性/方法

3.3.3 re.match() 和 ^ 其实有点意义重复

3.3.4 使用 re.match() 来测试，数量的不同写法(可以等价)

3.3.5 所以一般返回 re.match() 即可，而不直接返回 re.match().group() ，原因就很明显了

3.3.6 测试正则 re.match()

3.4 re.search()

3.5 Flags标志

3.6 没有 re.find() ，只有 re.findall()

3.7 re.findall()

3.8 re.sub()

3.9 re.finditer

3.10 re.compile()

3.11 re.split()

1 关于：re / regex / regular expression

1.1 什么是正则表达式

regular expression 正则表达式
以下的各种名字都是指的正则表达式

re
regex
regular expression

正则表达式是计算机科学的一个概念
是一个跨多种编程语言的语言格式，不同的语言里应该都有对应的正则库，而正则的规则是基本相同的。（我猜的 ^ ^ ）

1.2 在python中安装正则模块

1.2.1 python里一般都默认安装了 re正则模块，可以先查看确认下

查看 regex模块
pip list
pip show regex

1.2.2 如果没有安装，可以按照正则库regex, pip install regex

导入 re 模块
错误写法： pip install re
正确写法: pip install regex

1.3 在python中导入 re : import re

导入 re 模块
模块其实可以认为是一个 .py文件
正确写法: import re

2 正则表达式的相关符号

2.1 行定位符

用来描述字符串的边界，1行的边界？全部字符串的边界把？可以叫做字符串整体定位符？^ ^

^ #表示字符串开头

$ #表示字符串结尾

2.2 元字符 (注意是反斜杠\)

\w #匹配字母，数字，下划线等，还有各自文字，比如汉字

\W #^w 非w

\s # 匹配空格，换行，tab 等几种看不见的内容也就是：空格 \n \t

\S #^s 非s

\b #begin 单词的开始的意思如 \bw 匹配单词(不是整个字符串)开始的字母，数字，下划线等，所以 \b不同于 ^

\B #匹配非单词边界，即若某字串出现的单词字串未以空格分割，则不能匹配 ?

\d # 匹配数字

. # 任意字符

三种括号也是有特殊意义的

() #匹配方括号的每个字符，比如(fruit|food)s 表示 fruits|foods

[] # 匹配方括号的任一个字符，比如 [abc] 表示 a,b ,c 都可以

{} # 限定次数符号，看下面

2.3 量词 \次数 \限定符号 : * + ? {}

量词，缺省值

如果没有量词，默认就是1个
\d # 比如\d匹配数字的；量词不写，默认就是1个的意思

其他量词限定

* # 匹配前面的字符0次/无限次

+ # 匹配前面的字符1次/无限次

? # 匹配前面的字符0次/1次

但是这里有点注意，?表示量词时是0|1个，
常用于 .*? 这种非贪婪模式
但是放在其他量词后面表示，非贪婪匹配的意思，尽可能少的匹配

{n} # 匹配前面的字符n次

{n,} # 匹配前面的字符至少n次

{n,m} # 匹配前面的字符最少n次，最多m次， n-m次之间的都符合

e.g

^/d{8} #匹配8个数字

.*s #非贪婪匹配任意个数字

2.4 字符类/字符集合: 中括号 [ ]

[abcd] # 匹配abcd中的任意一个都可以

[12345] # 匹配1-5中的任意一个都可以

[0-9] # 匹配任意一个数字，等同于\d

[a-z0-9A-Z] # 匹配所有英文字母，数字，几乎等同\w 是\w的子集（不含汉字等）

2.5 排除字符 [^ ]

关键字 ^

/W # 相当于/^w，但是写法不对，必须写在中括号里 [^] 写在外面还是表示字符串开始

[^a-zA-Z] # 相当于非英文字母以外的其他任意字符

2.6 选择字符 |

选择

条件选择 | 表示or的意思

e.g.

^\d{5}|^\d{6}

2.7 转义字符反斜杠 \

转义字符

把普通字符变成特殊意义的字符， n 转成 \n 换行符
把特殊字符变成普通字符， \* 表示普通字符 * \. 表示普通字符 .

2.8 分组符号 ()

(fruit|food)s #表示 fruits|foods

([abc]{1,3}){3} #表示 [abc]1到3个，然后再来3个，一会试试

2.9 正则表达式需要用引号"" 包裹起来

2.9.1 如果有特殊符号，表达式前还要注意加 r

比如一般的
".*?"
实际使用时，如果包含特殊符号，记得使用 r (rawdata)
r"https://movie.douban.com/apex"

2.9.2 无论是正则字符串，还是目标字符串，都记得要加 r

正则字符串
目标字符串，
都可以加r 表示不要转义，取原始字符串的意思

2.10 贪婪模式 / 非贪婪模式

贪婪模式

匹配符合条件的最多的字符数

非贪婪模式

匹配符合条件的最少的字符数

非贪婪匹配，如果一直到末尾，往往会匹配一个尽量少的字符串=none 空字符串

?表示量词时是0|1个，但是放在其他量词后面表示，非贪婪匹配的意思，尽可能少的匹配

.*?
*？
？？
+？
{n,m}？

例子1：

#E:\work\FangCloudV2\personal_space\2learn\python3\py0005.txt
# re相关

import re
print(re.match(r"aa\d+","aa2323"))   #会尽可能多的去匹配\d
print(re.match(r"aa\d+?","aa2323"))  #尽可能少的去匹配\d

例子2

#E:\work\FangCloudV2\personal_space\2learn\python3\py0005.txt
# re相关

import re

get1 = re.match(r'1[35678]\d{9}','13111111111')
print (get1)

get1 = re.match(r'1[35678]\d{9}','121111111111')
print (get1)

get1 = re.match(r'1[35678]\d{2}','13111111111')
print (get1)

get1 = re.match(r'1[35678]','13111111111')
print (get1)

get1 = re.match(r'1[35678]?','13111111111')
print (get1)

get1 = re.match(r'1[35678]\d{1,9}','13111111111')
print (get1)

get1 = re.match(r'1[35678]\d{1,9}?','13111111111')
print (get1)