在数据库日常操作中,我们经常需要对文本字段做筛选查询,基础的LIKE关键字只能实现简单的通配符匹配,遇到复杂规则的需求就力不从心。这时候SQL语言提供的正则表达式函数就能发挥巨大作用,让文本匹配的能力得到质的提升。

传统文本匹配的局限性
常规的LIKE匹配只支持%和_两个通配符,%代表任意长度字符,_代表单个字符,只能处理非常基础的模糊查询。比如要筛选所有以138开头的11位手机号,用LIKE写需要写成'138________',不仅可读性差,还无法排除中间有非数字字符的情况,遇到更复杂的规则比如邮箱格式校验就完全无法实现。
SQL正则表达式函数的核心能力
不同数据库的正则表达式函数语法略有差异,但核心能力基本一致,主要包含以下几个方面的增强:
- 精准的模式定义:可以通过正则语法明确匹配字符类型,比如\d匹配数字,\w匹配字母数字下划线,不需要像LIKE那样用多个通配符拼接。
- 边界与范围控制:支持^匹配字符串开头,$匹配字符串结尾,[]定义字符集合,{}定义重复次数,能精准限定匹配的范围。
- 逻辑组合能力:支持|实现或逻辑,()实现分组,能处理多条件的组合匹配需求。
不同数据库的正则函数使用示例
MySQL中的正则匹配
MySQL使用REGEXP操作符实现正则匹配,下面的示例是筛选user表中手机号格式正确的记录:
-- 匹配1开头的11位纯数字手机号
SELECT *
FROM user
WHERE phone REGEXP '^1[3-9]\\d{9}$';PostgreSQL中的正则匹配
PostgreSQL支持~操作符做正则匹配,也可以用regexp_match函数提取匹配内容,示例是筛选符合格式要求的邮箱:
-- 匹配常见格式的邮箱
SELECT *
FROM user
WHERE email ~ '^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}$';Oracle中的正则函数
Oracle提供了REGEXP_LIKE函数,下面的示例是筛选身份证号为18位正确格式的记录:
-- 匹配18位身份证号,最后一位可以是数字或者X
SELECT *
FROM user
WHERE REGEXP_LIKE(id_card, '^[1-9]\\d{5}(19|20)\\d{2}(0[1-9]|1[0-2])(0[1-9]|[12]\\d|3[01])\\d{3}[\\dXx]$');正则函数与普通匹配的性能对比
在简单匹配场景下,LIKE的性能会略优于正则函数,因为正则需要额外的语法解析开销。但在复杂规则的匹配场景中,正则函数可以避免多次LIKE拼接查询,反而能减少查询的逻辑复杂度,整体性能更优。如果是对大表做高频的正则匹配,建议给对应字段建立合适的索引,进一步提升查询效率。
使用注意事项
使用正则函数时需要注意不同数据库的转义规则,比如MySQL中\d需要写成\\d,PostgreSQL中部分正则语法不需要额外转义。另外如果不需要复杂匹配,优先使用LIKE,避免不必要的性能开销。正则函数的可读性相对较弱,建议给复杂的正则规则添加注释,方便后续维护。