使用正则表达式删除不必要的结束标记
我正在寻找一个regex,它删除结束标记和所有内容,直到找到一个开始标记。例如:
</xy>..</zz>..<a>...
-><a>...
</b>..</cc>..<a href="#">...</a>
-><a href="#">...</a>
我试过了,但由于某些原因不起作用:
$html = preg_replace("/^.*<.*>/","<.*>",$html);
下面的解决方案
将捕获开始标记之前的所有文本并将其存储到一个组中(group1
),还将捕获剩余的字符串并将其存储到另一个组中。因此,第二组包含来自开始标记的文本。
(.*)(<w.*)
DEMO
您的php代码将是
<?php
$re = '~(.*)(<w.*)~';
$str= '</b>..</cc>..<a href="#">...</a> -> <a href="#">...</a>';
$replacement = "$2";
echo preg_replace($re, $replacement, $str);
?> //=> <a href="#">...</a>
或
<?php
$re = '~(?:.*)(<w.*)~';
$str= '</p>
<p>Â </p>';
$replacement = "$1";
echo preg_replace($re, $replacement, $str);
?>
说明:
(.*)(<w.*)
从字符串开头开始捕获,并在找到后跟w
单词字符的<
时停止捕获。<w
之前的字符串存储在组1内,<w
之后的字符串存储在组2内(包括<w
)。
相关文章