猫哥教你写爬虫 036--爬虫-BeautifulSoup实践-作业-电影top250-作业解析

遍历list的索引和值

list1 = ['我','爱','中国']
for i,k in enumerate(list1):
    print(i)
    print(k)
复制代码

面向对象风格的代码, 已写注释

import requests
import time
from bs4 import BeautifulSoup
class Spider():
    def __init__(self, base_url):
        '''
        根据入口url来实例化movie对象
        '''
        self.movie = Movie(base_url)
    def start(self):
        '''
        1. 获取每个分页的url
        2. 遍历, 把每个分页url作为入口
        3. 进入页面, 爬取数据
        4. 保存到movies_250_list
        5. 处理movies_250_list, 生成markdown
        '''
        for movie_url in self.get_page_urls():
            self.make_movie_list(movie_url)
        self.movie.make_markdown()
    def make_movie_list(self, url):
        '''
        从页面获取电影的相关信息, 保存到movie_250_list
        '''
        res = requests.get(url)
        print(url)  # 打印url, 显示进度
        time.sleep(2)  # 暂停2秒, 防止频率过高, 被封IP
        movie_html_tag_obj = BeautifulSoup(res.text, 'html.parser')
        for i in movie_html_tag_obj.find('ol', class_='grid_view').find_all('div', class_='item'):
            tmp_dict = {}  # 设置对象, 用来保存电影的名称, 封面, 评论, 和评分(电影的排名可以参考list的索引)
            tmp_dict['movie_title'] = i.find(
                'div', class_='pic').find('img')['alt']
            tmp_dict['movie_img'] = i.find(
                'div', class_='pic').find('img')['src']
            tmp_dict['movie_desc'] = i.find('span', class_='inq').text
            tmp_dict['movie_score'] = i.find('span', class_='rating_num').text
            self.movie.movies_250_list.append(tmp_dict)
    def get_page_urls(self):
        '''
        获取分页的url
        因为豆瓣250电影太多, 所以进行了分页, 我们需要进入每个分页里面, 进行爬取
        '''
        movie_url_list = [self.movie.base_url]  # 声明变量的时候, 先把第一个网址写进去
        res = requests.get(self.movie.base_url)
        movie_index_tag_obj = BeautifulSoup(res.text, 'html.parser')
        a_tag_list = movie_index_tag_obj.find('div', class_='paginator').find_all('a')  # 从a标签的href获取url
        for i in a_tag_list[:9]:
            movie_url_list.append(self.movie.base_url+i['href'])
        return movie_url_list
class Movie():
    base_url = ''  # 入口url
    movies_250_list = []  # 电影250列表
    def __init__(self, base_url):
        '''
        初始化对象时, 存储url, 方便以后调用
        '''
        self.base_url = base_url
    def make_markdown(self):
        '''
        创建markdown, 把之前存储的信息, 写入markdown
        '''
        with open('douban250.md', 'w', encoding='utf8') as file:
            for index, movie_dict in enumerate(self.movies_250_list):
                file.write('![]({})\n'.format(movie_dict['movie_img']))
                file.write('## {}\n'.format(movie_dict['movie_title']))
                file.write(
                    '### {} [top{}-{}]\n'.format(movie_dict['movie_desc'], index+1, movie_dict['movie_score']))
                file.write('---\n\n')
if __name__ == "__main__":
    spider = Spider('https://movie.douban.com/top250')  # 初始化爬虫, 传入入口url
    spider.start()  # 开始爬取
复制代码

快速跳转:

转载于:https://juejin.im/post/5cfc4adce51d45508c2fb81b

猫哥教你写爬虫 036--爬虫-BeautifulSoup实践-作业-电影top250-作业解析

遍历list的索引和值

面向对象风格的代码, 已写注释

快速跳转:

猜你喜欢