在Java开发中处理多语言文本时,很多场景下需要从文本中提取包含重音符号的单词,比如法语、西班牙语等语言中的带重音词汇。普通的正则表达式通常只能匹配英文字母,无法识别é、à、ñ这类重音字符,导致提取结果不完整。要解决这个问题,需要结合Unicode字符属性和Java正则的语法特性来构建匹配规则。

基础正则匹配的局限性
如果直接使用bw+b这类常规正则来提取单词,w默认只匹配[a-zA-Z0-9_],重音符号会被排除在外,比如文本中的"café"、"niño"都无法被完整匹配。我们可以做一个简单的测试:
import java.util.regex.Pattern;
import java.util.regex.Matcher;
public class RegexTest {
public static void main(String[] args) {
String text = "I like café and niño in the sentence";
// 普通正则匹配单词
Pattern commonPattern = Pattern.compile("\b\w+\b");
Matcher commonMatcher = commonPattern.matcher(text);
System.out.println("普通正则提取结果:");
while (commonMatcher.find()) {
System.out.println(commonMatcher.group());
}
}
}
运行上述代码后,输出结果会包含"caf"和"ni"而不是完整的"café"和"niño",说明基础正则无法满足需求。
使用Unicode属性匹配重音字符
Java的正则表达式支持Unicode字符属性匹配,我们可以通过p{L}来匹配所有Unicode中的字母字符,包括带重音的字母。p{L}表示任何语言的字母,不管是普通英文字母还是带重音的特殊字母都可以匹配。同时可以结合p{M}匹配重音符号本身,确保重音符号和字母的组合能被完整识别。
构建匹配含重音符号单词的正则表达式规则为:b[p{L}p{M}']+b,其中:
b表示单词边界,避免匹配到单词中间的部分[p{L}p{M}']匹配字母、重音符号和英文单引号(适配缩写场景)+表示前面的字符出现一次或多次
完整实现代码示例
下面的代码实现了从文本中精准提取所有含重音符号的单词,同时也会保留普通英文单词,符合实际文本处理的需求:
import java.util.regex.Pattern;
import java.util.regex.Matcher;
import java.util.ArrayList;
import java.util.List;
public class AccentWordExtractor {
public static List<String> extractWordsWithAccent(String text) {
List<String> result = new ArrayList<>();
// 匹配所有字母(含重音)、重音符号和单引号组成的单词
Pattern pattern = Pattern.compile("\b[\p{L}\p{M}']+\b");
Matcher matcher = pattern.matcher(text);
while (matcher.find()) {
// 判断单词是否包含重音符号
String word = matcher.group();
if (containsAccent(word)) {
result.add(word);
}
}
return result;
}
// 判断单词是否包含重音符号的辅助方法
private static boolean containsAccent(String word) {
Pattern accentPattern = Pattern.compile("\p{M}+");
return accentPattern.matcher(word).find();
}
public static void main(String[] args) {
String testText = "Bonjour, je m'appelle François. J'aime manger du café et du niño.";
List<String> accentWords = extractWordsWithAccent(testText);
System.out.println("提取到的含重音符号的单词:");
for (String word : accentWords) {
System.out.println(word);
}
}
}
运行上述代码,输出结果为:
提取到的含重音符号的单词: François café niño
特殊场景适配
处理连字符连接的单词
如果文本中存在类似"well-known"、"co-op"这类带连字符的单词,或者带重音的连字符单词如"résumé-draft",可以调整正则表达式为b[p{L}p{M}'-]+b,在字符集中加入连字符即可。
排除纯英文单词
如果只需要提取带重音符号的单词,不需要保留普通英文单词,可以在匹配后增加判断逻辑,如上面示例代码中的containsAccent方法,通过匹配重音符号的Unicode属性来过滤。
注意事项
在使用这类正则时,需要确保Java字符串的编码是UTF-8,避免文本本身的字符编码错误导致匹配失败。另外,如果处理的文本量非常大,可以提前编译好Pattern对象复用,减少重复编译的性能开销。