正则表达式中的重复模式匹配是文本处理场景下的高频需求,比如需要匹配连续出现的相同字符、多次重复的固定格式字符串等,掌握对应的匹配规则可以快速提升文本处理效率。

正则表达式中匹配重复的核心量词
正则表达式中通过量词来指定前面元素的重复次数,常用的量词有以下几种:
- *:匹配前面的元素0次或多次,比如
a*可以匹配空字符串、a、aa、aaa等 - +:匹配前面的元素1次或多次,比如
a+可以匹配a、aa、aaa,但不能匹配空字符串 - ?:匹配前面的元素0次或1次,比如
a?可以匹配空字符串或者a - {n}:匹配前面的元素恰好n次,比如
a{3}只能匹配aaa - {n,}:匹配前面的元素至少n次,比如
a{2,}可以匹配aa、aaa、aaaa等 - {n,m}:匹配前面的元素至少n次,最多m次,比如
a{2,4}可以匹配aa、aaa、aaaa
捕获组在重复匹配中的应用
如果需要匹配重复出现的某个完整模式,而不是单个字符,就需要用到捕获组。捕获组通过小括号()将需要重复的部分包裹起来,再对捕获组使用量词。
比如要匹配连续出现2到3次的ab字符串,正则表达式为(ab){2,3},具体示例如下:
import re
# 定义测试字符串
test_str = "ab abab ababab abababab"
# 匹配连续出现2到3次的ab模式
pattern = r"(ab){2,3}"
result = re.findall(pattern, test_str)
print(result) # 输出 ['ab', 'ab', 'ab', 'ab']
如果需要获取完整的匹配内容而不是捕获组的内容,可以使用非捕获组(?:),修改上面的示例如下:
import re
test_str = "ab abab ababab abababab"
# 使用非捕获组匹配连续2到3次的ab
pattern = r"(?:ab){2,3}"
result = re.findall(pattern, test_str)
print(result) # 输出 ['abab', 'ababab', 'ababab']
常见重复匹配场景示例
匹配连续重复的相同字符
比如要匹配字符串中连续出现3次及以上的相同数字,可以使用反向引用来实现,反向引用n可以引用前面第n个捕获组匹配的内容。
import re
test_str = "111 2222 33333 12121 4444"
# 匹配连续3次及以上的相同数字,1表示引用第一个捕获组的内容
pattern = r"(d)1{2,}"
result = re.findall(pattern, test_str)
print(result) # 输出 ['1', '2', '3', '4']
匹配重复出现的固定格式内容
比如要匹配字符串中重复出现的邮箱格式内容,假设邮箱格式为用户名@域名,用户名由字母数字组成,域名由字母和点组成。
import re test_str = "test@ippipp.com test@test.com test@ippipp.com test@test.com" # 匹配重复出现的邮箱,这里先匹配一个邮箱格式,再通过捕获组重复 pattern = r"([a-zA-Z0-9]+@[a-zA-Z.]+)(?=.*1)" result = re.findall(pattern, test_str) print(result) # 输出 ['test@ippipp.com', 'test@test.com']
注意事项和常见误区
在使用量词时要注意贪婪模式和惰性模式的区别,默认情况下量词是贪婪模式,会尽可能匹配多的内容,比如a.*b匹配aabab的时候会匹配整个aabab,如果需要在后面加?变成惰性模式,a.*?b会匹配aab和ab。
另外,量词只作用于紧邻的前一个元素,比如ab+是匹配a后面跟着1个或多个b,而不是匹配ab重复多次,如果需要匹配ab重复多次需要使用捕获组(ab)+。
调试正则表达式的时候可以先使用简单的测试字符串验证逻辑是否符合预期,再逐步扩展到复杂的场景,避免逻辑错误。