如何从复杂的XML中解析文本和图像
我希望你能帮我这个忙。该XML文件如下所示:
<channel><item>
<description>
<div> <a href="http://image.com">
<span>
<img src="http://image.com" />
</span>
</a>
Lorem Ipsum is simply dummy text of the printing etc...
</div>
</description>
</item></channel>
我可以获得Description标记的内容,但当我这样做时,我会得到整个结构,其中包含许多CSS,我不想要这样的内容。 我真正需要的是只解析href链接和Lorem Ipsum文本。我正在尝试使用简单的XML,但找不到,看起来太复杂了。有什么想法吗?
编辑: 我用来解析XML的代码
$file = new SimpleXMLElement($mydata);
{
foreach($file->channel->item as $post)
{
echo $post->description; } }
解决方案
这是回答问题的最终代码。
$xml = simplexml_load_file('myfile.xml');
$descriptions = $xml->xpath('//item/description');
foreach ( $descriptions as $description_node ) {
$description_dom = new DOMDocument();
$description_dom->loadHTML( (string)$description_node );
$description_sxml = simplexml_import_dom( $description_dom );
$imgs = $description_sxml->xpath('//img');
$text = $description_sxml->xpath('//div');
foreach($imgs as $image){
echo (string)$image['src'];
}
foreach($text as $t){
echo (string)$t;
}
}
这是IMSoP的代码,我添加了$text = $description_sxml->xpath('//div');
来读取<div>
中的文本。
<div>
和<span>
标记,因此要解析所有它们,我可能必须为<span>
添加另一个->xpath
或if... else
语句,以便如果<div>
中没有任何内容,则回显<span>
内容。
感谢您的回复。
相关文章