如何防止PHP DOMDocument修复您的HTML字符串

2022-06-19 00:00:00 parsing php domdocument html

我一直在尝试使用HTMLDOMObject来解析网页，以便应用程序扫描它们的SEO质量。

然而，我遇到了一点问题。出于测试目的，我编写了一个小的HTML页面，其中包含以下不正确的HTML：

<head>
<meta name="description" content="randomdesciption">
</head>
<title>sometitle</title>

如您所见，标题位于head标记之外，这是我尝试检测的错误。

现在问题来了，当我使用cURL从该页面捕获响应字符串，然后将其发送到DOM文档以将其加载为HTML时，它实际上通过在标题周围添加另一个<head>和</head>标记来解决这个问题。

<head>
<meta name="description" content="randomdesciption">
</head>
<head><title>sometitle</title></head>

我检查了cURL响应数据，实际上这不是问题所在，在执行loadHTML()方法的过程中，PHP DOMDocument以某种方式修复了html语法。

我还尝试通过将DOMDocument Recover、subsubteEntities和valiateOnParse属性设置为False来关闭它们，但没有成功。

我一直在谷歌上搜索，但到目前为止我找不到任何答案。我想对于某些人来说，真正希望损坏的HTML不被修复的情况有点少见。

有人知道如何防止DOMDocument修复我损坏的HTML吗？

解决方案

更新：从PHP5.4开始，您可以使用HTML_PARSE_NO_IMPLIED

$dom->loadHTML($html, LIBXML_HTML_NOIMPLIED);

以下是原始答案

你不能。理论上there is a flag HTML_PARSE_NO_IMPLIED for that in libxml阻止添加隐式标记，但无法从PHP访问。

附带说明，此特定行为似乎取决于所使用的LIBXML_VERSION。

运行此代码段：

<?php
$html = <<< HTML
<head>
<meta name="description" content="randomdesciption">
</head>
<title>sometitle</title>
HTML;

$dom = new DOMDocument;
$dom->loadHTML($html);
$dom->formatOutput = true;
echo $dom->saveHTML(), LIBXML_VERSION;

在我的计算机上将提供

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
<html>
<head><meta name="description" content="randomdesciption"></head>
<title>sometitle</title>
</html>
20707

相关文章