给定一个字符串:This is some text PT11extract this part.ER\n This is some text PT22extract this part.ER\n
如何把上述的PT和ER之间的字符串提取出来?
要提取给定字符串中 “PT” 和 “ER” 之间的字符串,你可以使用正则表达式来实现。下面是一个示例代码:
import re
text = "This is some text PT11extract this part.ER\n This is some text PT22extract this part.ER\n"
pattern = r'PT(.*?)ER' # 使用非贪婪匹配,提取每对 PT 和 ER 之间的内容
matches = re.findall(pattern, text, re.DOTALL)
for match in matches:
# match = match.strip() # 去除字符串两端的空格、换行符等
print(match)
输出:
11extract this part.
22extract this part.
在上述示例中,我们使用正则表达式 PT(.*?)ER
来匹配每对 “PT” 和 “ER” 之间的内容,并使用 re.findall()
函数找到所有匹配的结果。为了能够匹配换行符,我们使用了 re.DOTALL
标志。
然后,我们通过循环遍历匹配结果的列表,此处可以使用 strip()
函数去除字符串两端的空格、换行符等。这里没有去除,直接将其打印出来。
请注意,这个示例假设每对 “PT” 和 “ER” 之间的字符串不包含换行符。如果实际情况有所变化,你可能需要根据具体需求调整正则表达式或代码逻辑。
如果代码是如下所示:
import re
text = "This is some text PT11extract this part.ER\n This is some text PT22extract this part.ER\n"
pattern = r'PT.*?ER' # 使用非贪婪匹配,提取每对 PT 和 ER 之间的内容
matches = re.findall(pattern, text, re.DOTALL)
for match in matches:
# match = match.strip() # 去除字符串两端的空格、换行符等
print(match)
输出的结果是:
PT11extract this part.ER
PT22extract this part.ER