python爬取CSDN所有博客标题 - 代码天地

python爬取CSDN所有博客标题

其他 2018-06-24 05:13:18 阅读次数: 2

文章地址:http://henuly.top/?p=404

学了一晚上写的第一个爬虫，先爬一下自己博客的所有文章标题。

# -*- coding:utf-8 -*-

import requests
from bs4 import BeautifulSoup

# 将爬下来的博客标题保存到本地文本文件
f = open('title.txt', 'w')
# 存储博客标题数组
allBlog = []

# 获取网页文本源代码
def GetHtmlText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = 'utf-8'
        return r.text
    except:
        return ""

# 使用BeautifulSoup根据树状标签寻找需要爬取的信息
def FillBlogiList(soup):
    Titles = soup.find_all('h4')
    for Title in Titles:
        Tagas = Title.find_all('a')
        for Taga in Tagas:
            # 这里还不会去除子标签，先用文本切片手动去除
            TagaText = Taga.get_text()
            AddText = TagaText[32:-6]
            allBlog.append(AddText)

# 输出爬取内容
def SaveBloglist(num):
    for i in range(num):
        # 写入本地文本文件中
        f.write('%s\n' % allBlog[i])
        # print(allBlog[i])

# 程序主函数入口
def main(num):
    # 博客页数
    pages = 5
    for i in range(1, pages + 1):
        # 要爬取的网页
        url = "https://blog.csdn.net/Tony5t4rk/article/list/" + str(i)
        # 获取网页文本源代码
        html = GetHtmlText(url)
        soup = BeautifulSoup(html, "html.parser")
        # 使用BeautifulSoup根据树状标签寻找需要爬取的信息
        FillBlogiList(soup)
    # 输出爬取内容
    SaveBloglist(num)
    f.close()

if __name__ == '__main__':
    main(94)    # 目前总共94篇文章

运行结果:

猜你喜欢

转载自blog.csdn.net/tony5t4rk/article/details/80691160

python爬取CSDN所有博客标题

如何爬取CSDN博客中分栏的所有文章的标题和链接

python爬取个人csdn博客链接和标题

python- （scrapy上）爬取csdn所有博客内容

爬取所有博客

[Python]爬取CSDN论坛标题 2020.2.8

Python爬虫自学系列（八）-- 项目实战篇（二）爬取我的所有CSDN博客

Python爬虫小实践：爬取任意CSDN博客所有文章的文字内容（或可改写为保存其他的元素），间接增加博客访问量

Python3 获取CSDN博客所有文章标题及阅读数

python获取个人博客所有标题

Python数据挖掘学习笔记（10）爬取CSDN资讯页的所有新闻

python3爬取csdn上某账号所有文章

python3爬取CSDN个人所有文章列表页

Python番外篇：爬取CSDN博文中所有的代码

Scrapy简明教程(四)——爬取CSDN博客专家所有博文并存入MongoDB

Jsoup爬取CSDN博客

python爬取博客圆首页文章链接+标题

Python爬取CSDN，获取个人博客信息

使用python爬取csdn博客访问量

python 使用BeautifulSoup爬取CSDN博客(1)

python爬取CSDN博客文章并制作成PDF文件

python爬取所有股票报道

python爬取HDU所有题目

Python爬取网页所有小说

通过urllib.request爬取CSDN原创博客标题方法封装

【Python3 爬虫】爬取博客园首页所有文章

Python 爬虫：requests + BeautifulSoup4 爬取 CSDN 个人博客主页信息（博主信息、文章标题、文章链接）爬取博主每篇文章的信息（访问、收藏）合法刷访问量？

爬取并执行本篇CSDN博客的代码

使用selenium爬取csdn博客

requests + pyquery 爬取 csdn 博客信息

今日推荐

周排行

Access的四舍五入取整

8.23 前端学习过程

入门学习过程方向与漏洞复现总结：

操作分布式文件之八：如何批量并行读写远程文件和事务补偿处理

应邀出个教程（搭建tensorflow跑网络环境）

Kubernetes之Pod控制器应用进阶

14-[mysql内置功能]--

HDU6212 区间dp 好题

VS2015生成代码图

验证手机号的工具类

每日归档

更多

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)

2024-10-12(0)