您当前的位置:首页 > IT编程 > python
| C语言 | Java | VB | VC | python | Android | TensorFlow | C++ | oracle | 学术与代码 | cnn卷积神经网络 | gnn | 图像修复 | Keras | 数据集 | Neo4j | 自然语言处理 | 深度学习 | 医学CAD | 医学影像 | 超参数 | pointnet | pytorch | 异常检测 | Transformers | 情感分类 | 知识图谱 |

自学教程:一篇文章彻底搞懂python正则表达式

51自学网 2021-10-30 22:14:23
  python
这篇教程一篇文章彻底搞懂python正则表达式写得很实用,希望能帮到您。

前言

有时候字符串匹配解决不了问题,这个时候就需要正则表达式来处理。因为每一次匹配(比如找以什么开头的,以什么结尾的字符串要写好多个函数)都要单独完成,我们可以给它制定一个规则。

主要应用:爬虫的时候需要爬取各种信息,使用正则表达式可以很方便的处理需要的数据。

1. 正则表达式的基本概念

  1. 使用单个字符串来描述匹配一系列符合某个语法规则的字符串。
  2. 是对字符串操作的一种逻辑公式。
  3. 应用场景:处理文本和数据。
  4. 正则表达式过程:依次拿出表达式和文本中的字符比较,如果每一个字符都能匹配,则匹配成功,否则失败。

2. python的正则表达式re模块

import re

匹配过程:r'imooc'是原字符串,先生成Pattern对象,从头开始找,得到一个Match(或Search等)实例,最后有一个匹配结果。

# 用find和startswith找字符串str1 = 'imooc python'print(str1.find('11'))-1print(str1.find('imooc'))0print(str1.startswith('imooc'))True

使用正则表达式:

import repa = re.compile(r'imooc')   #  compile生成一个pattern对象,r'imooc'读原字符串,否则需要转义ma = pa.match(str1)  # 匹配不到返回为None,返回一个对象print(ma)<re.Match object; span=(0, 5), match='imooc'>print(ma.group())  # 返回一个字符串或字符串组成的元组ma.groups()imoocprint(ma.span())  # 返回所在字符串的位置print(ma.string)  # 返回原字符串print(ma.re)     # 返回实例(0, 5)imooc pythonre.compile('imooc')
# 匹配大小写,后面加上大写pa = re.compile(r'imooc', re.I)print(pa)re.compile('imooc', re.IGNORECASE)ma = pa.match('imooc python')print(ma.group())imoocma = pa.match('Imooc python')print(ma.group())Imooc
# 如果只有一个,可以直接生成一个match对象,也可以达到同样的效果ma = re.match(r'imooc', str1)print(ma)print(ma.group())<re.Match object; span=(0, 5), match='imooc'>imooc

3. 正则表达式语法

基本语法:适用于多种语言。

(1)匹配单个字符

1)'.' 的匹配,可以匹配除了/n外所有字符

ma = re.match(r'a', 'a')print(ma.group())ma = re.match(r'a', 'b')print(type(ma))  # 再调ma.group()则报错a<class 'NoneType'># 用.匹配字符ma = re.match(r'.', 'b')print(ma.group())ma = re.match(r'.', '0')print(ma.group())b0# 匹配{}中的字符ma = re.match(r'{.}', '{0}')print(ma.group())ma = re.match(r'{..}', '{01}')print(ma.group()){0}{01}

2)[…]匹配字符集

# []匹配字符集ma = re.match(r'{[abc]}', '{a}')print(ma.group())ma = re.match(r'{[abc]]}', '{d}')  # 匹配不到,则报错print(ma.group())ma = re.match(r'{[a-z]]}', '{d}')print(ma.group()) # 匹配a-z中任意一个字符{a}{d}ma = re.match(r'{[a-zA-Z]}', '{A}')print(ma.group()){A}ma = re.match(r'{[a-zA-Z0-9]}', '{0}')print(ma.group()){0}

3) /w 匹配a-zA-Z0-9, /W匹配非单词字符

ma = re.match(r'{[/w]}', '{A}')print(ma.group())ma = re.match(r'{[/w]}', '{ }')print(ma.group())  # 匹配不到ma = re.match(r'{[/W]}', '{ }')print(ma.group()){A}{ }

4)字符集[]匹配

ma = re.match(r'[[/w]]', '[a]')print(ma.group())  # 匹配不到# 匹配[]需要加转义/ma = re.match(r'/[[/w]/]', '[a]')print(ma.group())[a]

(2)匹配多个字符

1) *匹配

ma = re.match(r'[A-Z][a-z]', 'Aa')print(ma.group())ma = re.match(r'[A-Z][a-z]', 'A')print(ma.group()) # 匹配不到ma = re.match(r'[A-Z][a-z]*', 'Aa')print(ma.group())ma = re.match(r'[A-Z][a-z]*', 'Aagfagsagaha')print(ma.group())ma = re.match(r'[A-Z][a-z]*', 'Aa123')print(ma.group())AaAAagfagsagahaAa

2)+匹配

# 匹配下划线或字符开头的无限次ma = re.match(r'[_a-zA-Z]+[_/w]*', '10')print(ma.group())   # 匹配不到ma = re.match(r'[_a-zA-Z]+[_/w]*', '_hte10')print(ma.group())_hte10

3)?匹配

# 匹配0-99,01则不对 ma = re.match(r'[1-9]?[0-9]', '90')print(ma.group())ma = re.match(r'[1-9]?[0-9]', '9')print(ma.group())ma = re.match(r'[1-9]?[0-9]', '09')print(ma.group())  # 只匹配到09090

4){m} / {mn}匹配

# 匹配邮箱,匹配6次ma = re.match(r'[a-zA-Z0-9]{6}', 'abc123')print(ma.group())abc123ma = re.match(r'[a-zA-Z0-9]{6}', 'abc12')print(ma.group()) # 少一个则匹配不到ma = re.match(r'[a-zA-Z0-9]{6}', 'abc1234')print(ma.group()) # 多则匹配前6个abc123ma = re.match(r'[a-zA-Z0-9]{6}@163.com', 'abc123@163.com')print(ma.group())abc123@163.com# 匹配6-10位的邮箱ma = re.match(r'[a-zA-Z0-9]{6, 10}@163.com', 'abc123@163.com')print(ma.group())

4)*? /+? /??匹配 (尽可能少匹配)

ma = re.match(r'[0-9][a-z]*', '1abc')print(ma.group())ma = re.match(r'[0-9][a-z]*?', '1abc')print(ma.group())  # 只匹配11abc1ma = re.match(r'[0-9][a-z]+?', '1abc')print(ma.group()) # 只匹配一次1a

(3)边界匹配

ma = re.match(r'[/w]{4,10}@163.com', 'imooc@163.com')print(ma.group())imooc@163.comma = re.match(r'[/w]{4,10}@163.com', 'imooc@163.comabc')  # 后面加上abc,match从头开始匹配,则可以找到print(ma.group())imooc@163.comma = re.match(r'[/w]{4,10}@163.com&', 'imooc@163.comabc')print(ma.group())  # 匹配不到ma = re.match(r'^[/w]{4,10}@163.com&', 'imooc@163.comabc')print(ma.group())  # 匹配不到ma = re.match(r'^[/w]{4,10}@163.com&', 'imooc@163.com')print(ma.group())  # 加上^和$,限制开头结尾imooc@163.com
# 指定开头结尾ma = re.match(r'/Aimooc[/w]*', 'imoocpython')print(ma.group())ma = re.match(r'/Aimooc[/w]*', 'iimoocpython')print(ma.group())  # 匹配不到imoocpython

(4)分组匹配

这里不再举例。

4. re模块相关方法使用

以上举例都是match,从头到尾匹配,查找子串就不合适了

# 在一个字符串中查找匹配1:search(pattern, string, flags=0)# 找到匹配,返回所有匹配部分的列表2:findall(pattern, string, flags=0)# 将字符串中匹配正则表达式得部分替换为其它,repl可以替换函数3:sub(pattern, repl, string, count=0, flags=0)# 根据匹配分割字符串,返回分割字符串组成的列表4:split(pattern, string, maxsplit=0, flags=0)
# searchimport restr1 = 'imooc videonum = 1000'print(str1.find('1000'))  # 数字改变则失效17info = re.search(r'/d+', str1)print(info.group())1000str1 = 'imooc videonum = 10000'info = re.search(r'/d+', str1)print(info.group())10000
# findall# 当有多个数字时str2 = 'a=100, b=200, c=300'info = re.search(r'/d+', str2)print(info.group())100info = re.findall(r'/d+', str2)print(info.group())[100, 200, 300]
# sub 替换str3 = 'imooc videonum = 1000'info = re.sub(r'/d+', '1001', str3)print(info)imooc videonum = 1001
# split# 分割str3 = 'imooc:C C++ Java'print(re.split(r':| ', str4))[imooc, C, C, Java]

以上即为python中的正则表达式的一些知识总结。

总结

到此这篇关于python正则表达式的文章就介绍到这了,更多相关python正则表达式内容请搜索51zixue.net以前的文章或继续浏览下面的相关文章希望大家以后多多支持51zixue.net!


Django零基础入门之静态文件的引用
python计算分段函数值的方法
万事OK自学网:51自学网_软件自学网_CAD自学网自学excel、自学PS、自学CAD、自学C语言、自学css3实例,是一个通过网络自主学习工作技能的自学平台,网友喜欢的软件自学网站。