简单的爬取贴吧案例 - 代码天地

简单的爬取贴吧案例

其他 2018-10-19 11:06:25 阅读次数: 0

思路：用循环爬取n（任意数字）页代码，然后保存在文件里
一共三个函数：

get_html函数是用来爬取页面
save_html函数用来把爬取来的页面代码保存在文件中
main作为主函数
代码如下：

from urllib.request import urlopen,Request
from urllib.parse import urlencode

def get_html(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
    }
    request = Request(url, headers=headers)
    response = urlopen(request)
    info = response.read()
    print(info.decode())
    return info
def save_html(filename,html_bytes):
    with open(filename,"wb") as f:
        f.write(html_bytes)

def main():
    content=input("要下载的内容:")
    num=input('下载的页数:')
    base_url="http://tieba.baidu.com/f?ie=utf-8{}"
    for pn in range(int(num)):
        args={
            "pn":pn*50,
            "kw":content
        }
        filename="第"+str(pn+1)+"页.html"
        url=base_url.format(urlencode(args))
        print("正在下载"+filename)
        html_bytes=get_html(url)
        save_html(filename,html_bytes)

if __name__ == '__main__':
    main()

猜你喜欢

转载自blog.csdn.net/qq_41386300/article/details/82988204

简单的爬取贴吧案例

爬虫（四）：简单爬取贴吧

爬取贴吧

贴吧爬取

ulrlib案例-爬取百度贴吧

爬取贴吧页面

爬取贴吧图片

爬取贴吧数据

简单爬取百度贴吧图片

Python爬虫实战，简单的爬虫案例，以及爬取百度贴吧网页原码和360翻译

用python爬取贴吧数据

Python实现爬取贴吧图片

爬取贴吧小项目

urllib:爬取贴吧静态数据

爬虫Spider--爬取贴吧

python爬取贴吧图片

爬取贴吧热议榜

爬虫小案例爬取百度贴吧杨幂图片 xpath 美丽汤

爬取百度贴吧html网页HTML代码，爬虫案例

经典爬虫学习（一）-百度贴吧爬取案例

案例关于python百度贴吧图片爬取教程！

03 爬虫案例之爬取百度贴吧

Python爬取百度贴吧回帖中的微信号（基于简单http请求）

Python 基础语法+简单地爬取百度贴吧内容

Python爬虫之简单的爬取百度贴吧数据

python：爬取贴吧的某个吧的网页信息

爬虫小案例爬取百度贴吧赵丽颖图片案例 xpath 美丽汤

Python爬虫小程序，爬取百度贴吧网页文件，新手练手的好案例

1.4举个栗子——爬起lol贴吧网页源码（可以修改爬取贴吧名字）

Python爬取贴吧内容-南华大学贴吧为例

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)