python正则表达式提取文本

2023-02-28 00:00:00 文本提取正则表达式

在Python中，可以使用re模块提取文本中的信息，re模块提供了一个re.search()函数，用于在字符串中查找第一个与正则表达式匹配的子串。

下面是一个简单的例子，使用正则表达式从字符串中提取出一个数字：

import re

text = 'The price of the book is $15'
match = re.search(r'\d+', text)
if match:
    print(match.group())  # 输出：15

在上面的例子中，使用正则表达式模式r'\d+'匹配字符串中的数字，并使用match.group()方法提取匹配到的数字。如果字符串中有多个数字，该方法只会返回第一个匹配到的数字。

除了re.search()函数之外，re模块还提供了一些其他函数，如re.findall()和re.finditer()，可以用于在字符串中查找所有与正则表达式匹配的子串，并以列表或迭代器的形式返回结果。例如，下面的代码使用re.findall()函数提取字符串中所有的数字：

import re

text = 'The prices are $15 and $25'
matches = re.findall(r'\d+', text)
print(matches)  # 输出：['15', '25']

在这个例子中，使用正则表达式模式r'\d+'匹配字符串中的数字，并使用re.findall()方法提取所有匹配到的数字，并以列表的形式返回结果。

需要注意的是，在提取文本信息时，需要根据具体情况编写正则表达式模式，并使用捕获组将要提取的信息包含在内。例如，下面的代码从一个URL中提取出域名信息：

import re

url = 'https://www.example.com/path/to/page.html'
match = re.search(r'(https?://)?([\w\.]+)(/\w+)*/?\w+\.\w+', url)
if match:
    print(match.group(2))  # 输出：www.example.com

在这个例子中，使用正则表达式模式r'(https?://)?([\w.]+)(/\w+)*/?\w+.\w+'匹配URL中的域名信息，并使用捕获组将域名信息包含在内，然后使用match.group(2)方法提取匹配到的域名信息。

相关文章