#encoding=utf-8 import re # html里是文本里的内容 f = open('text.txt','r') html = f.read() f.close # #爬取标题 # # 需要寻找的<title>只出现一次,search()只返回第一个匹配的元素,不用遍历全部,效率更高 # title = re.search('<title>(.*?)</title>',html,re.S).group(1) # print title # #爬取链接 # Links = re.findall('href="(.*?)"',html,re.S) # print Links # for each in Links: # print each # #提取部分文字信息:先爬大,再爬小 # text_fied = re.findall('<ul>(.*?)</ul>',html,re.S)[0] # #猜想,当findall得到的元素是一个元组,但是这个元组仅有一个时,需要像search那样给定位置。 # print text_fied # the_text = re.findall('">(.*?)</a>',text_fied,re.S) # for e_text in the_text: # print e_text #sub实现翻页功能 old_url = "http://www.jikexueyuan.com/course/android/?pageNum=2" total_page = 20 for i in range(2,total_page+1): new_link = re.sub('pageNum=\d+','pageNum=%d'%i,old_url,re.S) print new_link
正则表达式举例
猜你喜欢
转载自blog.csdn.net/hhyiyuanyu/article/details/80066258
今日推荐
周排行