利用正则表达式和Request库爬取知乎发现页面的标题部分

import requests
import re 

headers = {
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'
}
r = requests.get("https://www.zhihu.com/explore", headers = headers)
pattern = re.compile('explore-feed.*?question_link.*?>(.*?)</a>',re.S)
titles = re.findall(pattern, r.text)
print(titles)

运行结果:

['\n目前求 π 的算法中哪种收敛最快?\n', '\n为什么我感觉张鹤帆很奇怪?\n', '\n怎么样客观看待张云雷现象?\n', '\n为什么中国摔跤和柔道如此相似?\n', '\n网络小说里有什么沙雕情节?\n', '\n电影《流浪地球》有哪些细节和彩蛋?\n', '\n王鸥是怎么度过她的人生低谷的(就是众所周知的夜光剧本事件之后那段时间)?\n', '\n你见过哪些蠢到家的罪犯?\n', '\n八月长安笔下的梗哪个最戳你?\n', '\n怎么评价欧阳娜娜的穿搭?\n']

参考:《Python3网络爬虫开发实战》

猜你喜欢

转载自blog.csdn.net/qq_39362996/article/details/87874126