1.findall() 方法(返回一个列表)
代码如下:
import re
text = ""
f = open("testtext.txt",'r',encoding="cp936")
for each_line in f:
text = text+each_line
f.close()
#result = re.findall(" ([A-z][A-z][A-z]) ",text) # return list “[]”内是需要匹配的内容,这里A-z指的是所以的英文字母,得到结果加上“()”,返回时,返回的是括号里的内容。
result = re.findall(" (A[a-z][a-z]) | (a[a-z][a-z]) ",text) #找到文章中所有以a开头的长度为3个字母的单词。
setdic1 = set()
for each in result: #并将它们转换为集合格式
if each[0] not in setdic1:
setdic1.add(each[0])
if each[1] not in setdic1:
setdic1.add(each[1])
result = re.findall("[A-z]+",text)
setdic = set(result) #return set 可以将返回的列表转换成集合形式。
count = 0
for iteam in setdic:
count = count+1
print(result)
#print(setdic)
#print(count)
#print(text)