Python从HTML代码提取所有图片保存到数组
def get_image_urls(content): """得到html代码中的所有图片地址""" pattern = r'''<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*["']?[\s\t\r\n]*([^\s\t\r\n"'<>]*)[^<>]*?/?[\s\t\r\n]*>''' re_obj = re.compile(pattern, re.IGNORECASE) all_match = re_obj.findall(content) if all_match: all_match = [item for item in all_match if item] return all_match
此函数通过正则表达式分析出html代码内的所有图片。
调用代码如下:
content = '''<img src="http://www.pidancode.com/static/project/img/logo-black.png" /><a href="http://www.pidancode.com">皮蛋编程</a>,<span class="text">欢迎访问皮蛋编程</span> <img src="http://www.pidancode.com/static/project/img/test.jpg"/> ''' print(get_image_urls(content))
输出结果:
['http://www.pidancode.com/static/project/img/logo-black.png', 'http://www.pidancode.com/static/project/img/test.jpg']
相关文章