XML本身并不直接支持正则约束的定义,需要借助XSD(XML Schema Definition)来实现对元素和属性内容的正则规则限制,通过XSD内置的pattern元素可以匹配自定义的正则表达式,完成内容格式的校验。

XML正则约束的基础原理
XSD是XML的 schema 约束语言,它提供了一套完整的类型定义和校验机制,其中pattern facet(面)就是专门用于正则约束的组件。当我们需要限制某个简单类型的内容格式时,可以在该简单类型的定义中添加pattern元素,元素的内容就是对应的正则表达式,XML解析器在校验文档时会自动匹配该正则,不符合规则的内容会判定为校验失败。
XSD中定义正则约束的语法
定义正则约束的核心是在简单类型中嵌套pattern元素,基本语法结构如下:
<xs:simpleType name="自定义类型名">
<xs:restriction base="基础简单类型">
<xs:pattern value="正则表达式"/>
</xs:restriction>
</xs:simpleType>
其中base属性指定该自定义类型继承的基础简单类型,比如xs:string、xs:integer等,pattern的value属性就是要应用的正则规则。
常用正则语法适配说明
XSD中的正则语法和常见的正则语法基本一致,但部分细节有差异,常用的规则包括:
d匹配数字字符,等价于[0-9]w匹配单词字符,包括字母、数字、下划线*表示匹配前面的字符零次或多次+表示匹配前面的字符一次或多次{n}表示匹配前面的字符恰好n次{n,m}表示匹配前面的字符n到m次
完整示例:定义带正则约束的XML Schema
下面我们定义一个用户信息相关的XSD,其中对用户手机号、邮箱、年龄字段添加正则约束:
<?xml version="1.0" encoding="UTF-8"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema">
<!-- 定义手机号正则约束类型,匹配11位国内手机号 -->
<xs:simpleType name="phoneType">
<xs:restriction base="xs:string">
<xs:pattern value="1[3-9]d{9}"/>
</xs:restriction>
</xs:simpleType>
<!-- 定义邮箱正则约束类型 -->
<xs:simpleType name="emailType">
<xs:restriction base="xs:string">
<xs:pattern value="w+@w+.w+"/>
</xs:restriction>
</xs:simpleType>
<!-- 定义年龄正则约束类型,匹配1-120的整数 -->
<xs:simpleType name="ageType">
<xs:restriction base="xs:integer">
<xs:pattern value="[1-9]d?|1[01]d|120"/>
</xs:restriction>
</xs:simpleType>
<!-- 定义用户元素 -->
<xs:element name="user">
<xs:complexType>
<xs:sequence>
<xs:element name="name" type="xs:string"/>
<xs:element name="phone" type="phoneType"/>
<xs:element name="email" type="emailType"/>
<xs:element name="age" type="ageType"/>
</xs:sequence>
</xs:complexType>
</xs:element>
</xs:schema>
符合约束的XML文档示例
基于上面的XSD,以下是校验通过的XML文档:
<?xml version="1.0" encoding="UTF-8"?>
<user xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:noNamespaceSchemaLocation="user.xsd">
<name>张三</name>
<phone>13800138000</phone>
<email>test@ipipp.com</email>
<age>25</age>
</user>
如果把手机号改成10位,或者邮箱格式不正确,XML解析器在校验时就会抛出错误,提示内容不符合正则约束规则。
注意事项
- XSD中的正则不需要添加常见的定界符,比如
/,直接写正则内容即可 - 如果需要添加多个正则约束,可以嵌套多个
pattern元素,只要满足其中一个就会被判定为合法 - 正则中的特殊字符如果不需要转义,直接写即可,XSD会自动识别正则语法
- 除了
pattern,XSD还提供minLength、maxLength等其他约束面,可以和正则约束结合使用,实现更精准的内容限制