爬虫入门（1） - 代码天地

爬虫入门（1）

编程语言 2018-10-08 19:04:32 阅读次数: 0

# -*- coding: utf-8 -*-
from urllib import request
import re


def re_geturl(mytext, index):
    p1 = r"http.*D" + str(index)  # 正则表达式规则
    http_list = re.findall(p1, mytext)
    http_list = list(map(lambda x: x.replace("amp;", ""), http_list))
    http_list = list(set(http_list))  # 去重
    for url in http_list:
        print(url)


def get_prestige_hd():
    """
    读取网页中的url
    :return: url_list
    """
    url = "http://fxxxx.com/forum.php?mod=forumdisplay&fid=131&page="
    for i in range(1, 10):
        cur_url = url + str(i)
        print(cur_url)
        response = request.urlopen(cur_url)  # 打开连接
        html = response.read()
        html = html.decode("utf-8")
        re_geturl(html, i)
        break
    return ""


if __name__ == "__main__":
    get_prestige_hd()

猜你喜欢

转载自blog.csdn.net/linchaoa1989/article/details/82956864

网络爬虫入门（1）

python爬虫入门（1）

爬虫入门（1）

开始入门爬虫（1）

爬虫入门-1

1，爬虫入门之爬虫基础了解

爬虫入门1---谈谈网络爬虫

爬虫入门教程 —— 1

python的爬虫入门学习1

python爬虫入门训练-1

爬虫入门（1）--糗百

Python爬虫入门1：序章

Python爬虫入门 | 1 Python环境的安装

Python爬虫入门 1 Python环境的安装

【爬虫入门1】css选择器

Python 爬虫入门笔记1(for myself)

网络爬虫之Request库入门（1）

Python爬虫入门【1】： CentOS环境安装

Python爬虫笔记1 | request库入门

入门Python爬虫Day1

爬虫编程入门实践（Day 1）

Python爬虫入门学习-起因（1）

爬虫从入门到放弃——WebMagic使用简单的爬虫（1）

Python爬虫（入门+进阶）学习笔记 1-1 什么是爬虫？

爬虫（一）爬虫入门

python爬虫入门（1）简单爬取网页源码

Python爬虫开发【第1篇】【Scrapy入门】

Python学习笔记--Python 爬虫入门 -18-1 Scrapy

python爬虫-基础入门-爬取整个网站《1》

python 爬虫入门 commit by commit -- commit1

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)