爬取电影top250 电影名导演演员风格国家时长评分录入mySQL数据库 - 代码天地

爬取电影top250 电影名导演演员风格国家时长评分录入mySQL数据库

其他 2018-07-12 09:45:03 阅读次数: 0

import requests
from lxml import etree
import re
import pymysql
import time

conn = pymysql.connect(host='localhost',user='root',passwd='123456',db='mydb',port=3306,charset='urf8')
cursor = conn.cursor()

headers = { 'User-Agent':'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0)' }

def get_movie_url(url):
html = requests.get(url,headers=headers)
selector = etree.HTML(html.text)
movie_hrefs = selector.xpath('//div[@class="hd"]/a/@href')
for movie_href in movie_hrefs:
get_movie_info(movie_href)

def get_movie_info(url):
html = requests.get(url,headers=headers)
selector = etree.HTML(html.text)
try:
name = selector.xpath('//*[@id="content"]/h1/span[1]/text()')[0]
director = selector.xpath('//*[@id="info"]/span[1]/span[2]/a/text()')[0]
actors = selector.xpath('//*[@id="info"]/span[3]/span[2]')[0]
actor = actors.xpath('string(.)')
style = re.findall('<span property="v:genre">(.*?)</span>',html.text,re.S)[0]
country = re.findall('<span class="pl">制片国家/地区:</span>(.*?)<br/>',html.text,re.S)[0]
release_time = re.findall('上映时间:</span>.*?>(.*?)</span>',html.text,re.S)[0]
time = re.findall('片长:</span>.*?>(.*?)</span>',html.text,re.S)[0]
score = selector.xpath('//*[@id="interest_sect"]/div[1]/div[2]/strong/text()')[0]
cursor.execute("insert into doubanmovie (name,director,actor,style,country,release_time,time,score)values(%s,%s,%s,%s,%s,%s,%s,%s)"(str(name),str(director),str(actor),str(style,str(country),str(release_time),str(time),str(score))))
except IndexError:
pass

if __name__ =='__main__':
urls = ['https://movie.douban.com/top250?strart={}'.format(str(i)) for i in range(0,250,25)]
for url in urls:
get_movie_url(url)
time.sleep(2)
conn.commit()
问题：无法连接数据库无法检测代码运行

猜你喜欢

转载自www.cnblogs.com/zhentaoFrezt/p/9297857.html

爬取电影top250 电影名导演演员风格国家时长评分录入mySQL数据库

用python爬取豆瓣电影TOP250获取电影排名、电影名称、电影别名、电影链接、导演、主演、年份、地点、类型、评分、评价人数、摘要、海报下载地址。

爬虫练习-爬取豆瓣电影TOP250的数据

豆瓣Top250电影数据爬取学习

python爬虫03 —爬取静态页面（爬取豆瓣电影top250若干页的电影名称及评分）

Python爬虫小白教程（二）—— 爬取豆瓣评分TOP250电影

python爬取豆瓣电影top250数据存入数据库

爬虫学习之11：爬取豆瓣电影TOP250并存入数据库

python爬虫(九、爬取豆瓣top250电影信息并插入数据库sqlite)

python大数据分析电影评分与时长等等

【数据分析】豆瓣电影Top250爬取的数据的可视化分析

Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析

数据-爬虫-上手项目1-爬取豆瓣电影TOP250

豆瓣电影top250信息爬取与数据分析

python爬取豆瓣电影top250数据存入excel

浅层阐述如何爬取豆瓣电影top250以及可视化数据

Python网络爬虫数据采集实战：豆瓣电影top250爬取

Python爬取豆瓣电影Top250（数据保存到Excel中）

爬取豆瓣电影Top250和数据分析

python爬虫——爬取豆瓣top250电影数据（适合初学者）

爬取豆瓣电影TOP250

python爬虫--爬取豆瓣top250电影名

爬取豆瓣电影 Top 250 数据

Python爬虫学习-豆瓣电影TOP250数据爬取（存入mongo数据库中）

python爬虫——爬取豆瓣电影top250信息并加载到MongoDB数据库中

爬取豆瓣top250音乐时长出版商存入Mongo数据库

python爬虫爬取豆瓣电影前250名电影及评分（requests+pyquery)

python scrapy框架爬取豆瓣top250电影篇一存储数据到mongogdb | mysql中

一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用

基础爬虫，谁学谁会，用requests、正则表达式爬取豆瓣Top250电影数据！

今日推荐

周排行

Java基础系列-Java11特性解读

前端面试查漏补缺--(十一) 前端软件架构模式MVC/MVP/MVVM

java Listener监听器

矩阵的迹

运用MVP实现二级联动

019基于JSP的学生考勤管理系统(MySQL版)

一道逻辑题 - 我拿走了哪个数

C# 通用单例窗体类

分布式之消息队列复习精讲【转】

Mac 使用.bash_profile

每日归档

更多

2024-07-11(0)

2024-07-10(0)

2024-07-09(0)

2024-07-08(0)

2024-07-07(0)

2024-07-06(0)

2024-07-05(0)

2024-07-04(0)

2024-07-03(0)

2024-07-02(0)