Python正则表达式提取网页标题
在 HTML 中,网页标题通常被包含在
下面是一个简单的示例代码,用于提取网页标题:
import re html = """ <html> <head> <title>pidancode.com - 皮蛋编程</title> </head> <body> <h1>Hello, World!</h1> <p>Welcome to pidancode.com.</p> </body> </html> """ pattern = r'<title>(.*?)</title>' title = re.search(pattern, html) if title: print(title.group(1))
上述代码中,我们首先定义了一个正则表达式模式 pattern,用于匹配
运行上述代码,我们可以得到以下输出:
pidancode.com - 皮蛋编程
在实际使用中,我们还可以使用 re.findall() 函数来获取 HTML 代码中的所有标题信息,并使用列表等数据结构来保存这些信息。需要注意的是,在使用正则表达式提取网页标题时,还需要考虑到不同网页可能具有不同的 HTML 结构,因此需要根据具体情况定义合适的正则表达式模式。
相关文章