在处理文本筛选需求时,我们经常会遇到需要匹配包含特定字符组合,但同时要排除该组合出现在开头或结尾位置的情况。比如现在的需求是匹配所有包含olo字符序列,但olo不能出现在单词开头,也不能出现在单词结尾的单词,这类需求可以通过正则的负向断言结合字符匹配规则来实现。

匹配规则拆解
要实现这个需求,我们需要先明确几个核心的匹配条件:
- 单词必须包含olo这个连续的字符序列
- olo不能出现在单词的第一个字符位置,也就是单词开头不能是o
- olo不能出现在单词的最后两个字符位置,也就是单词结尾不能是o,且倒数第二个字符不能是l,倒数第三个字符不能是o
正则语法实现
我们可以通过负向零宽断言来限制olo的出现位置,再结合单词边界和字符匹配来完成整体规则。核心的正则表达式如下:
b(?<!^)(?<!o)olo(?不过更简洁的写法是使用负向先行断言和负向后行断言组合,避免重复判断,优化后的正则如下:
b(?!olo)w*olow*(?<!olo)b对这个正则的各个部分做拆解说明:
b:匹配单词边界,确保我们匹配的是完整的单词,避免匹配到其他单词的一部分(?!olo):负向先行断言,表示从当前位置开始往后看,不能以olo开头,排除olo在单词开头的情况w*olow*:匹配任意数量的单词字符,中间必须包含olo序列,确保单词包含olo(?<!olo):负向后行断言,表示从当前位置往前看,不能以olo结尾,排除olo在单词结尾的情况b:再次匹配单词边界,闭合单词匹配范围
验证示例
我们可以用Python的re模块来验证这个正则的匹配效果,测试代码如下:
import re
# 定义测试用的正则规则
pattern = r'b(?!olo)w*olow*(?<!olo)b'
# 测试文本,包含多种情况的单词
test_text = "olo hello holo oloend oloholo oloolo holoend holo olo oloh"
# 执行匹配
result = re.findall(pattern, test_text)
print("匹配到的单词:", result)
运行上述代码后,输出结果为:
匹配到的单词: ['hello', 'holo', 'oloholo', 'holoend', 'holo', 'oloh']
可以看到,以下情况的单词都被正确排除:
- olo:olo在开头也在结尾,不符合要求
- oloend:olo在开头,不符合要求
- oloolo:olo在开头也在结尾,不符合要求
- olo:单独出现时olo在开头结尾,不符合要求
不同场景适配
如果我们的匹配场景不是针对英文单词,而是针对任意字符串,只需要把w替换成对应的字符集即可。比如要匹配包含olo但不以olo开头结尾的任意字符串,正则可以调整为:
(?!olo).*olo.*(?<!olo)
如果需要在JavaScript中使用这个正则,语法基本一致,只是需要注意JavaScript不支持负向后行断言的低版本环境,此时可以用其他方式替代,比如先匹配包含olo的字符串,再过滤掉开头或结尾是olo的情况:
const testText = "olo hello holo oloend oloholo oloolo holoend holo olo oloh";
const pattern = /bw*olow*b/g;
const allMatches = testText.match(pattern) || [];
const validMatches = allMatches.filter(item => {
return !item.startsWith("olo") && !item.endsWith("olo");
});
console.log("匹配到的单词:", validMatches);
运行这段JavaScript代码,得到的输出和Python的验证结果一致,也能正确筛选出符合要求的单词。