Python 中re库的简单使用

1.findall() 方法(返回一个列表)

代码如下:

import re

text = ""
f = open("testtext.txt",'r',encoding="cp936")
for each_line in f:
    text = text+each_line
f.close()
#result = re.findall(" ([A-z][A-z][A-z]) ",text) # return list “[]”内是需要匹配的内容,这里A-z指的是所以的英文字母,得到结果加上“()”,返回时,返回的是括号里的内容。

result = re.findall(" (A[a-z][a-z]) | (a[a-z][a-z]) ",text) #找到文章中所有以a开头的长度为3个字母的单词。
setdic1 = set()
for each in result:              #并将它们转换为集合格式
    if each[0] not in setdic1:
        setdic1.add(each[0])
    if each[1] not in setdic1:
        setdic1.add(each[1])
result = re.findall("[A-z]+",text) 
setdic = set(result)  #return set 可以将返回的列表转换成集合形式。
count = 0
for iteam in setdic:
    count = count+1
print(result)
#print(setdic)
#print(count)
#print(text)

猜你喜欢

转载自blog.csdn.net/qq_39458250/article/details/83957005