小说爬取 - 代码天地

小说爬取

其他 2018-08-14 00:18:49 阅读次数: 0

import requests
import re
import time
from bs4 import BeautifulSoup
headers = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'
}

f = open('E:/HFTX.txt','a+')
url_list=[]

def get_urls(start_url):
    wb_data=requests.get(start_url,headers=headers)
    soup=BeautifulSoup(wb_data.text,'lxml')
    links=soup.select('#readlist > ul > li > a')
    for link in links:
        page_url='http://www.quanshuwu.com/'+link.get('href')
        url_list.append(page_url)

def get_info(url):
    res = requests.get(url,headers=headers)
    if res.status_code == 200:
        contents = re.findall('<p>(.*?)</p>',res.content.decode('utf-8',errors='ignore'),re.S)
        for content in contents:
            try:
                f.write(content+'\n')
            except:
                print('error')
    else:
        pass

if __name__ == '__main__':
    start_url='http://www.quanshuwu.com/book/2039.aspx'
    get_urls(start_url)
    for url in url_list:
        get_info(url)
        time.sleep(1)
    f.close()

猜你喜欢

转载自blog.csdn.net/qq_42052864/article/details/80737990

爬虫爬取小说网站

python 爬取小说网站实战

Python爬取小说网站

网络爬虫-爬取顶点小说网指定小说

python：免费看无广告小说之爬取全本免费小说网的小说

使用scrapy爬虫,爬取起点小说网的案例

话本小说网-文章内容爬取

Python爬虫系列之小说网爬取

Python的scrapy之爬取6毛小说网

python爬虫，简单的爬取小说网站的阅读排名

scrapy爬虫-爬取wattpad外网小说网站

爬虫练习——爬取纵横小说网

【每周一爬】爬取盗版小说网的小说

【Python3爬虫-爬小说】爬取某小说网小说1/2--利用网址顺序抓

Python3爬取免费小说网小说

spider爬虫练习，爬取顶点小说网，小说内容。

【Python3爬虫-爬小说】爬取某小说网小说2/2--利用下一页抓

爬虫学习之7：使用XPATH爬取起点小说网小说信息(保存到EXCEL)

Python3中BeautifulSoup爬取笔趣阁小说网

Python爬取小说网站，没有什么是Python不能做的！

运用scrapy爬虫,爬取17k小说网的案例

运用scrapy爬虫,爬取17k小说网的案例-方法二

学习python3爬虫爬取静态小说网站

用Scrapy爬取百度小说吧内容

Python爬取小说网站页面制作电子书

用scrapy爬取小说网站，并保存到数据库

利用python的requests和BeautifulSoup库爬取小说网站内容

python爬虫爬取笔趣网小说网站过程图解

爬虫爬取小说网站的内容，并将各章节输出到各txt文件

Python爬虫实例(一)——爬取某点小说网《庆余年》

今日推荐

周排行

vue + echart +map中国地图，省市地图，区县地图

spring boot2 (31)-cors跨域请求

『学习资料推荐』299元买的微信营销资料打包

个人学习卷积神经网络的疑惑解答

网络工程师-软考

模拟人生4 春夏秋冬、星梦起飞版更新下载方法以及常见问题

python关于对象的字符串显示str和repr以及

奇怪的session混乱问题

【3】分治法（divide-and-conquer）

Java项目开发成绩管理系统（九）各模块实现信息修改

每日归档

更多

2024-08-07(0)

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)