在Java开发中,经常需要处理文本提取需求,比如从一段内容里把特定起始标记和结束标记之间的变长内容截取出来,正则表达式就是处理这类场景的高效工具。

正则表达式基础匹配规则
要提取已知起始和结束标记之间的内容,核心是使用正则表达式的捕获组语法。假设起始标记为start,结束标记为end,基础的匹配正则为start(.*?)end,其中(.*?)就是捕获组,用来匹配两个标记之间的任意内容。
这里需要注意量词的选择:*?是非贪婪匹配,会尽可能少的匹配字符,避免出现跨多个结束标记的错误匹配;如果使用*贪婪匹配,会匹配到最后一个结束标记,不符合变长提取的预期。
Java中实现提取的完整步骤
1. 编译正则表达式
首先需要使用Pattern类编译定义好的正则表达式,避免重复编译带来的性能损耗。
2. 创建匹配器并执行匹配
通过Pattern对象的matcher方法创建Matcher实例,然后调用find方法查找匹配的内容,通过group方法获取捕获组的内容。
3. 完整代码示例
以下是从一段文本中提取所有<div>和</div>之间内容的示例代码:
import java.util.regex.Pattern;
import java.util.regex.Matcher;
import java.util.ArrayList;
import java.util.List;
public class RegexExtractDemo {
public static void main(String[] args) {
// 待处理的文本内容
String text = "第一个div内容<div>Hello World</div>第二个div内容<div>Java正则表达式测试</div>其他内容";
// 定义正则表达式,start为<div>,end为</div>,中间内容用非贪婪捕获组匹配
String regex = "<div>(.*?)</div>";
// 编译正则表达式
Pattern pattern = Pattern.compile(regex);
// 创建匹配器
Matcher matcher = pattern.matcher(text);
// 存储提取结果的集合
List<String> resultList = new ArrayList<>();
// 循环查找所有匹配的内容
while (matcher.find()) {
// group(0)是完整匹配内容,group(1)是第一个捕获组的内容,也就是我们需要的变长子字符串
String extractContent = matcher.group(1);
resultList.add(extractContent);
}
// 输出提取结果
for (String content : resultList) {
System.out.println("提取到的内容:" + content);
}
}
}
特殊场景的处理方式
标记包含特殊正则字符的场景
如果起始或结束标记中包含正则特殊字符,比如.、*、?等,需要对这些字符进行转义,否则会被正则引擎解析为语法规则。比如起始标记是a.b,正则中需要写成a.b。
跨多行的变长子字符串提取
如果待提取的内容跨多行,需要给Pattern添加Pattern.DOTALL模式,该模式会让.匹配包括换行符在内的所有字符,示例代码如下:
// 跨多行匹配时,添加Pattern.DOTALL参数 Pattern pattern = Pattern.compile(regex, Pattern.DOTALL);
常见问题与注意事项
- 如果起始和结束标记可能不存在,需要先判断
find方法的返回值,避免空指针异常 - 非贪婪匹配适合提取多个不重叠的标记内容,若只需要提取第一个匹配的内容,也可以不使用循环,直接调用一次
find即可 - 提取结果中如果不需要包含起始和结束标记,只需要获取捕获组的内容即可,不要使用
group(0)
通过上述方法,就可以在Java中高效完成已知起始和结束标记的变长子字符串提取任务,实际开发中可以根据具体的标记规则和文本特征调整正则表达式,适配不同的业务场景。