嵌套引号内的子模式正则表达式匹配

2022-03-22 00:00:00 regex php preg-replace

我正在从一些带有许多不必要的嵌套[QUOTE]标记的旧论坛软件升级,我想通过regex(使用PHP preg_place)去掉这些标记。其中大多数已经完成,但我正在努力处理以下类型。

帖子中有嵌套的引号块,但只需要保留顶层[报价]内容(因为某些嵌套引号有3或4层深)。

例如:

Here is some normal post content

[QUOTE]
This is an appropriate quote
[/QUOTE]

Here is more post content

[QUOTE]
This is a a valid quote, as it's only 1 level deep.
   [QUOTE="User 2"]
   Here's an unnecessary nested quote.
       [QUOTE]
       Here's a 3nd level unnecessary nested quote.
       [/QUOTE]
   [/QUOTE]
[/QUOTE]

Here is more post content

我想删除第二级和第三级嵌套引号,但无法确定如何操作。

我对strip nested quotes完全有一些很好的建议,但我一直无法修改正则表达式模式以适应此示例。


解决方案

是的,您可以使用链接答案中的相同正则表达式,并将其与一些编程逻辑结合使用两次:

<?php

$regex = '~
        ([QUOTE[^][]*]
        (?:[^][]++|(?1))++
        [/QUOTE])
        ~x';

$data = preg_replace_callback($regex, 
    function($match) use($regex) {
        return $match[0][0] . preg_replace($regex, '', substr($match[0], 1));
    },
    $your_data_string_here);

echo $data;
?>


下面是您的示例:

Here is some normal post content

[QUOTE]
This is an appropriate quote
[/QUOTE]

Here is more post content

[QUOTE]
This is a a valid quote, as it's only 1 level deep.

[/QUOTE]

Here is more post content


这里的想法是匹配每个引号标记(嵌套或不嵌套),然后将相同的表达式应用于匹配的字符串,但偏移量为+1。当我们获取一个子字符串时,只找到下一个嵌套的[QUOTE]集合,然后将其替换。

Ademo on regex101.com和on ideone.com进一步阐明了这一点。

相关文章