淘先锋技术网

首页 1 2 3 4 5 6 7

在Java或任何开源库中是否有任何方法可以转义(不引用)特殊字符(元字符),以便将其用作正则表达式?

这在动态构建正则表达式时非常方便,无需手动转义每个单独的字符 .

例如,考虑一个简单的正则表达式,如 \d+\.\d+ ,它匹配带小数点的数字,如 1.2 ,以及以下代码:

String digit = "d";

String point = ".";

String regex1 = "\\d+\\.\\d+";

String regex2 = Pattern.quote(digit + "+" + point + digit + "+");

Pattern numbers1 = Pattern.compile(regex1);

Pattern numbers2 = Pattern.compile(regex2);

System.out.println("Regex 1: " + regex1);

if (numbers1.matcher("1.2").matches()) {

System.out.println("\tMatch");

} else {

System.out.println("\tNo match");

}

System.out.println("Regex 2: " + regex2);

if (numbers2.matcher("1.2").matches()) {

System.out.println("\tMatch");

} else {

System.out.println("\tNo match");

}

毫不奇怪,上面代码产生的输出是:

Regex 1: \d+\.\d+

Match

Regex 2: \Qd+.d+\E

No match

也就是说, regex1 匹配 1.2 但 regex2 ( Build "dynamically")不匹配(相反,它匹配文字字符串 d+.d+ ) .

那么,是否有一种方法可以自动转义每个正则表达式元字符?

如果有,那么, java.util.regex.Pattern 中的静态 escape() 方法,输出

Pattern.escape('.')

将是字符串 "\." ,但是

Pattern.escape(',')

应该只生成 "," ,因为它不是元字符 . 同样的,

Pattern.escape('d')

可以产生 "\d" ,因为 'd' 用于表示数字(虽然在这种情况下转义可能没有意义,因为 'd' 可能意味着字面意思 'd' ,这不会被正则表达式的互操作者误解为其他东西,如同情况一样 '.' ) .