关于对Java正则表达式"\\"的理解

2022-11-13 17:11:49 java 理解 正则表达式

相信很多人在使用正则表达式的时候都会遇到如下的语句:

通过查阅正则表达式的api文档可以了解到正则表达式的语法知识:

很多小伙伴就会产生疑问为什么语法是"\d"(或是"\D"、"\w"),为什么在语句中使用的时候就变成了"\\"   ??????

下面以"\\d"为例:

理解一:

这要分两步看

①.首先字符串中的\\被编译器解释为\    ------>    第一步,编译器将字符串转变为“正则表达式”

②.然后作为正则表达式,\d又被正则表达式引擎解释为“数字[0--9]"    ------> 第二步,才开始把第一步的结果当做是正则表达式,开始进行匹配!

理解二:

这个是由两部分组成的   \ 转义符 +  \d 是一个正则表达式。标识所有数字及0-9

之所以要加\是因为在JAVA中一些特殊的符号(回车)是没有符号代表的。所以需要转义符这个概念。而像回车这类转义符都是由\开始的。那么就出现了第二个问题,如果我要输入的恰恰是\符号怎么办?那么这个问题就还用转义符来解决。即为转义字符的再转义,就可以让编译器识别到我们输入的并不是一个特殊字符,而是一个表示特定含义的正则表达式"\d"。

补充:为什么“java正则表达式中匹配一个反斜杠要用四个反斜杠”,java正则表达式为啥用两个\\表示一个\

首先我们知道在正则表达式中\代表转义,而java中\也代表转义(一些字母前加\来表示常见的那些不能显示的ASCII字符,如\0,\t,\n等,就称为转义字符)。

根据“jdk API中的原话:根据 Java Language Specification 的要求,Java 源代码的字符串中的反斜线被解释为 Unicode 转义或其他字符转义。因此必须在字符串字面值中使用两个反斜线,表示正则表达式受到保护,不被 Java 字节码编译器解释。”

根据“thinking中的一段话:如果在其他语言中使用过正则表达式,那你就立刻能发现Java对反斜线\的不同处理.在其他语言中,\表示"我想要在正则表达式中插入一个普通的(字面上的)反斜线,请不要给他任何特殊的意义."而在Java中,\的意思是"我要插入一个正则表达式的反斜线,所以其后的字符具有特殊的意义."例如,如果你想表示一位数字,那么正则表达式应该是\d.如果你想插入一个普通的反斜线,则应该这样用\\.不过换行和制表符之类的东西只需使用单反斜线:\n\t. ”

也就是java解释字符串时,正则表达式受到保护(可以这样理解:先由java解释器解释字符串,然后再由正则表达式解释器解释正则表达式),

那么

String pattern = "a\\\\b";

首先被java解释器解释为“a\b”(第一个和第三个\代表转义,此时正则表达式受到保护,不被解释),再被正则解释器解释为"a\b"。即java中由4个\表示一个\。也就是他文中所说的java正则表达式被解释两次。

总结

到此这篇关于对Java正则表达式"\\"理解的文章就介绍到这了,更多相关Java正则表达式"\\"内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!

相关文章