douban top250爬取 - 代码天地

douban top250爬取

其他 2021-12-14 22:26:25 阅读次数: 0

#通过豆瓣top250网页，将排行榜中的250个电影名字，发布年份，评分，评论人数四项内容写入到data.csv文件中
import requests
import re
import csv

url = "https://movie.douban.com/top250"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"}
number = 0

obj=re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)</span>.*?<p class="">.*?<br>(?P<year>.*?)&nbsp.*?<span class="rating_num" property="v:average">(?P<score>.*?)</span>.*?<span>(?P<num>.*?)人评价</span>',re.S) #命名时?P中的P必须是大写，re.S中的S必须是大写。

for i in range(10):
    keyvalue = {
        "start": number,
        "filter": ""
    }
    filename = "第{}页.csv".format(i+1)
    f = open(filename, mode="w", newline="")
    csvwriter = csv.writer(f)

    r = requests.get(url=url, headers=headers, params=keyvalue)
    page_content = r.text
    result = obj.finditer(page_content)
    for it in result:
        dic = it.groupdict()
        dic["year"] = dic["year"].strip()
        csvwriter.writerow(dic.values())
    f.close()
    number = number + 25

print("运行结束！")

猜你喜欢

转载自blog.csdn.net/weixin_47401101/article/details/121059298

douban top250爬取

爬取豆瓣电影TOP250的所有电影名称，网址为：https://movie.douban.com/top250

python爬取douban读书

爬douban+neihan代码：

INFO: Ignoring response <403 https://movie.douban.com/top250>: HTTP status code is not handled or not allowed

Scrapy 运行＞＞异常：Ignoring response ＜403 https://movie.douban.com/top250＞: HTTP status code is not hand

python爬取imdb top250

爬取豆瓣图书TOP250

豆瓣Top250爬取

爬取豆瓣电影TOP250

爬取豆瓣top250

豆瓣TOP250爬取及分析

python爬取豆瓣Top250

爬取豆瓣电影top250（python3）

golang爬取豆瓣Top250书籍信息

使用requests爬取豆瓣电影top250

python爬取豆瓣电影Top250

利用selenium爬取豆瓣电影Top250

爬取豆瓣音乐Top250并存入xls

爬取豆瓣图书Top250并存入xls

利用scrapy框架爬取豆瓣top250

爬虫学习--MOOC爬取豆瓣top250

笔记：Scrapy 爬取豆瓣电影Top250

爬虫教程——用Scrapy爬取豆瓣TOP250

（十七）Python爬虫：爬取豆瓣电影TOP250

使用scrapy爬取豆瓣电影Top250

利用Python爬取豆瓣top250

用scrapy框架爬取豆瓣Top250电影

python+scrapy+mongoDB爬取豆瓣top250

scrapy ------ 爬取豆瓣电影TOP250

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)