Python从HTML代码提取所有图片保存到数组

2022-03-14 00:00:00 数组 提取 保存
def get_image_urls(content):
    """得到html代码中的所有图片地址"""
    pattern = r'''<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*["']?[\s\t\r\n]*([^\s\t\r\n"'<>]*)[^<>]*?/?[\s\t\r\n]*>'''
    re_obj = re.compile(pattern, re.IGNORECASE)
    all_match = re_obj.findall(content)
    if all_match:
        all_match = [item for item in all_match if item]
    return all_match

此函数通过正则表达式分析出html代码内的所有图片。

调用代码如下:

content = '''<img src="http://www.pidancode.com/static/project/img/logo-black.png" /><a href="http://www.pidancode.com">皮蛋编程</a>,<span class="text">欢迎访问皮蛋编程</span>
<img src="http://www.pidancode.com/static/project/img/test.jpg"/>
 '''
print(get_image_urls(content))

输出结果:

['http://www.pidancode.com/static/project/img/logo-black.png', 'http://www.pidancode.com/static/project/img/test.jpg']

相关文章