4.8实验记录（爬取so问答） - 代码天地

4.8实验记录（爬取so问答）

其他 2020-04-13 16:42:18 阅读次数: 0

只爬取指定的类的div

from bs4 import BeautifulSoup
soup=BeautifulSoup(h,'html.parser')
a=soup.find_all('div',class_="post-text")
ar=re.compile(r'<[^>]+>',re.S)
ad=ar.sub('',str(a))

h:爬取的html内容
class_：要爬取的div的class
ar：正则找标签
ad：去标签

import requests
import re
from bs4 import BeautifulSoup
import time
import re

headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0"}
for k in range(33):
    res=requests.get("https://stackoverflow.com/search?page="+str(k)+"&q=docker+cpu",headers=headers)
    html=res.text
    url=re.findall('<a href="(.*?)" data-searchsession=".*?" title="(.*?)" class="question-hyperlink">',html)

    for j in range(len(url)):
        u=url[j]
        file_name=u[0].split('/')[-2]
        response=requests.get("https://stackoverflow.com"+u[0],headers=headers)
        h=response.text
        soup=BeautifulSoup(h,'html.parser')
        a=soup.find_all('div',class_="post-text")


        for i in range(len(a)):
            with open("D://stack//" + file_name +'['+str(i)+'].txt', 'w+', encoding="utf-8") as f:
                ar=re.compile(r'<[^>]+>',re.S)
                ad=ar.sub('',str(a[i]))
                f.write(ad)
                f.close()
                time.sleep(1)
    time.sleep(10)

Rbdash

发布了5 篇原创文章 · 获赞 2 · 访问量 2672

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_43621813/article/details/105381693

4.8实验记录（爬取so问答）

果壳问答爬取_demo

lxml爬取实验

scrapy爬取知乎问答

Scrapy爬取携程桂林问答

简单爬取知乎网的问答

用python爬取知乎问答

【菜鸟学Python】爬取果壳问答

知乎问答图片爬取

爬取Tapd的缺陷记录

Python 爬取汽车领域问答语料（自用）

爬虫练习（2）-- 使用正则匹配爬取果壳问答

爬取zhihu李大爷的问答（ajax的）存入mysql

一次软件爬取记录

爬取的地址存入mysql记录

记录爬取2470条数据

python 爬取网络图片记录

java爬虫爬取动态页面记录

scrapy爬取知名问答网站(解决登录+保存cookies值+爬取问答数据)--完整版完美解决登录问题

通过scrapy，从模拟登录开始爬取知乎的问答数据

爬虫实战之分布式爬取知乎问答数据

爬取 100 万条 StackOverflow 问答后，我得出的结论！

Python 爬取知乎 9674 个问答，揭秘最受欢迎的 98 本书！

scrapy-redis实现分布式爬取知乎问答

基于scrapy的搜索引擎（三）：爬取问答网站

《汽车之家》字体反爬之论坛、问答、文章(新闻、车家号）及其评论爬取

Scrapy爬取豆瓣图书保存MySQL实验

【实验】爬取m3u8视频

Educode--故宫壁纸网页图片的爬取实验

Python爬取豆瓣图书信息学习记录

今日推荐

周排行

AIZU 2224 Save your cats(并查集)

HTTP响应头状态码详解

Python socket编程（2）

MaxCompute Studio使用心得系列7—作业对比

Supervisor安装使用

LeetCode 164. Maximum Gap

mysql面试题: 一张表里面有ID自增主键，当insert了17条记录之后，删除了第15,16,17条记录，再把mysql重启，再insert一条记录，这条记录的ID是18还是15

nutch1.2 DeleteDuplicates IndexMerger 详解

OC - @property与setter,getter方法

SpringBoot @Transactional的rollbackFor属性

每日归档

更多

2024-09-19(0)

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)