使用正则表达式匹配所有三种PHP注释

2022-03-15 00:00:00 regex comments sublimetext2 php

我需要匹配PHP可能具有的所有三种类型的注释:

  • # Single line comment

  • // Single line comment

  • /* Multi-line comments */

  • b

     /**
      * And all of its possible variations
      */
    

我应该提一下:我这样做是为了能够识别PHP结束标记(?>)是否在注释中。如果是,则忽略它,如果不是,则将其算作1。这将在XML文档中使用,以提高Sublime Text对结束标记的识别能力(因为它快把我逼疯了!)。我花了几个小时尝试实现这一点,但我无法实现。我如何翻译才能使其与XML一起工作?

因此,如果您还可以包括if-Then-Else登录,我将不胜感激。顺便说一句,我真的需要它是在纯正则表达式,没有语言功能或任何东西。:)

正如Eicon提醒我的那样,我需要所有它们都能够在行的开头或一段代码的末尾匹配,因此我还需要以下内容来匹配所有的它们:

<?php
    echo 'something'; # this is a comment
?>

解决方案

解析编程语言似乎太多,正则表达式无法完成。您可能应该寻找PHP解析器。

但这些可能是您要查找的正则表达式。我假设您对所有它们都使用了DOTALL或SINGLELINE选项(尽管前两个选项在没有它的情况下也可以使用):

~#[^
]*~
~//[^
]*~
~/*.*?*/~s

请注意,如果注释分隔字符出现在字符串中或其他位置,并且这些字符实际上并未打开注释,则任何这些操作都会导致问题。

您还可以将所有这些合并为一个正则表达式:

~(?:#|//)[^
]*|/*.*?*/~s
如果您使用某些不需要分隔符的工具或语言(如Java或C#),请删除这些~。在这种情况下,您还必须以不同的方式应用DOTALL选项。但是如果不知道您要在哪里使用它,我无法告诉您如何使用。

如果您不能/不想设置DOTALL选项,这将是等效的(为了举例,我还省略了分隔符):

(?:#|//)[^
]*|/*[sS]*?*/

See here用于工作演示。

现在,如果您还希望捕获组中评论的内容,则可以执行此操作

(?|(?:#|//)([^
]*)|/*([sS]*?)*/)

无论注释类型如何,注释内容(不带语法分隔符)都将在捕获%1中找到。

另一个working demo。

相关文章