嵌套引号内的子模式正则表达式匹配
我正在从一些带有许多不必要的嵌套[QUOTE]标记的旧论坛软件升级,我想通过regex(使用PHP preg_place)去掉这些标记。其中大多数已经完成,但我正在努力处理以下类型。
帖子中有嵌套的引号块,但只需要保留顶层[报价]内容(因为某些嵌套引号有3或4层深)。
例如:
Here is some normal post content
[QUOTE]
This is an appropriate quote
[/QUOTE]
Here is more post content
[QUOTE]
This is a a valid quote, as it's only 1 level deep.
[QUOTE="User 2"]
Here's an unnecessary nested quote.
[QUOTE]
Here's a 3nd level unnecessary nested quote.
[/QUOTE]
[/QUOTE]
[/QUOTE]
Here is more post content
我想删除第二级和第三级嵌套引号,但无法确定如何操作。
我对strip nested quotes完全有一些很好的建议,但我一直无法修改正则表达式模式以适应此示例。
解决方案
是的,您可以使用链接答案中的相同正则表达式,并将其与一些编程逻辑结合使用两次:
<?php
$regex = '~
([QUOTE[^][]*]
(?:[^][]++|(?1))++
[/QUOTE])
~x';
$data = preg_replace_callback($regex,
function($match) use($regex) {
return $match[0][0] . preg_replace($regex, '', substr($match[0], 1));
},
$your_data_string_here);
echo $data;
?>
下面是您的示例:
Here is some normal post content
[QUOTE]
This is an appropriate quote
[/QUOTE]
Here is more post content
[QUOTE]
This is a a valid quote, as it's only 1 level deep.
[/QUOTE]
Here is more post content
这里的想法是匹配每个引号标记(嵌套或不嵌套),然后将相同的表达式应用于匹配的字符串,但偏移量为+1。当我们获取一个子字符串时,只找到下一个嵌套的
[QUOTE]
集合,然后将其替换。
Ademo on regex101.com和on ideone.com进一步阐明了这一点。
相关文章