使用正则表达式删除不必要的结束标记

2022-03-22 00:00:00 regex php preg-replace

我正在寻找一个regex，它删除结束标记和所有内容，直到找到一个开始标记。例如：

</xy>..</zz>..<a>...-><a>...

</b>..</cc>..<a href="#">...</a>-><a href="#">...</a>

我试过了，但由于某些原因不起作用：

$html = preg_replace("/^.*<.*>/","<.*>",$html);

下面的

解决方案

将捕获开始标记之前的所有文本并将其存储到一个组中(group1)，还将捕获剩余的字符串并将其存储到另一个组中。因此，第二组包含来自开始标记的文本。

(.*)(<w.*)

DEMO

您的php代码将是

<?php
$re = '~(.*)(<w.*)~'; 
$str= '</b>..</cc>..<a href="#">...</a> -> <a href="#">...</a>';
$replacement = "$2";
echo preg_replace($re, $replacement, $str);
?> //=>  <a href="#">...</a>

或

<?php
$re = '~(?:.*)(<w.*)~'; 
$str= '</p>
<p>Â </p>';
$replacement = "$1";
echo preg_replace($re, $replacement, $str);
?>

说明：

(.*)(<w.*)从字符串开头开始捕获，并在找到后跟w单词字符的<时停止捕获。<w之前的字符串存储在组1内，<w之后的字符串存储在组2内(包括<w)。

相关文章