爬虫学习的一点心得
任务:抓取贴吧主题、作者、创建时间
抓取:requests
解析:xpath,正则表达式
遇到的问题点:
1.headers请求头要加全,以免被反爬(抓取不到任何信息或者抓取信息不全)
2.用xpath解析的时候,我们需要获取到的内容信息在网页源代码中是被注释掉了,通过js在加载页面的时候显示内容,需要先将注释符号利用正则替换掉。
3.保存到CSV中,CSV主要是存取元素为字典的列表;默认newline=‘\n',中间如果不需要空格,则改成newline='';encoding='utf-8',仍然保存的文字为乱码,改成
encoding='utf-8-sig'可解决此问题。
转载于:https://www.cnblogs.com/tian2B/p/10878123.html