批量制作博文清单

其他 2018-08-11 16:06:22 阅读次数: 0

import re
from urllib.request import urlopen

baseurl = 'https://blog.csdn.net/gf_lvah/article/list/'
pages = 7


def get_page(url):
    return urlopen(url).read().decode('utf-8')


def parse_content(content):
    pattern = r' <a href="(.*?)" target="_blank">\s+<span class="article-type type-1">\s+.*?</span>\s+(.*?)\s+</a>'
    return re.findall(pattern, content)


List = []

for i in range(7):
    url = baseurl + str(i + 1)
    print(url)
    content = get_page(url)

    print("爬取第%d页" % (i + 1))
    print(parse_content(content))
    List.extend(parse_content(content))

with open('csdn.txt', 'w') as f:
    l = len(List)
    for url, name in List:
        print(url,name)
        name = name.strip()
        f.write('[ 第%s篇博文 : %s ](%s)\n\n' %(l, name, url))
        l -= 1

猜你喜欢

转载自blog.csdn.net/gf_lvah/article/details/81171759

批量制作博文清单

BLOG - 个人博文系统开发总结三：批量博文导入功能

LP、HPM、HPC、HPC等工艺制作博文

制作购物清单

如何制作像新浪博客的博文列表那样显示文章部分简略内容？

优秀博文导航

测试博文

Spark 博文

博文纪录

java优秀博文

Java-博文

Python优秀博文

博文前言

博文链接

git 优秀博文

浏览博文

博文阅读目录

发博文

python爬博文

博文目录

JavaScript 博文

Android 博文

nginx 博文

SWT 经典博文

开博文日志了

开始写博文

搬家通知博文

博文地址

博文声明

Tomcat 博文

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)