python 清除html代码内的所有标签

2022-03-11 00:00:00 代码 标签 清除

用python来清除字符串里的html标签,此代码在只清理一对尖括号内的内容,开始和结束标签中间包含的内容不会清除

"""
作者:皮蛋编程(https://www.pidancode.com)
创建日期:2022/3/18
修改日期:2022/3/18
功能描述:Python清除HTML代码内的所有标签
"""


def stripTags(s):
    intag = [False]

    def chk(c):
        if intag[0]:
            intag[0] = (c != '>')
            return False
        elif c == '<':
            intag[0] = True
            return False
        return True

    return ''.join(c for c in s if chk(c))


content = """<script src="https://www.pidancode.com/1.js"></script>
欢迎访问皮蛋编程:https://www.pidancode.com
点击连接访问皮蛋编程网站首页:<a href="https://www.pidancode.com">皮蛋编程</a>
"""
print(stripTags(content))

运行程序返回结果如下:

欢迎访问皮蛋编程:https://www.pidancode.com
点击连接访问皮蛋编程网站首页:皮蛋编程

以上程序在Python3.9环境下测试通过。

相关文章