该项目源自科赛网的训练项目。
背景
项目简介
此数据集包含来自MovieLens 电影推荐服务的5星评分和文本标记数据和来自IMDB1950-2012年IMDB TOP10000排行榜数据。
MovieLens数据集包含27278部电影的20000263份评分和465564次标签应用。 这些数据是由1995年1月9日至2015年3月31日期间的138493个用户创建。
练习内容
MDBTOP10000数据集包含1950-2012年IMDB TOP10000电影排行榜数据集。包含电影名称,上映时间,评分,投票数,时长和流派信息。 以下为可选角度:
- 什么样题材的电影评分会相对较高(较低);
- 电影时长对评分是否有影响;
- 不同年代什么类型电影较受欢迎;
- 其他自选角度。
该数据集由MovieLens的“genome-scores.csv”
,“genome-tags.csv”
,“links.csv”
,“movies.csv”
,“ratings.csv”
,“tags.csv”
6个数据文件和“imdb10000.csv”
组成,但科赛网站上的数据集已经丢失。该数据集的前5个部分可根据超链接下载,但是imdb10000.csv缺失,网上寻找无果(csdn上倒是有,但是我没有积分啊),因此考虑自己用爬虫爬取该部分数据。
文件名 | genome_scores.csv | genome_tags.csv | link.csv | movie.csv | rating.csv | tag.csv | imdb10000.csv |
---|---|---|---|---|---|---|---|
内容 | 包含tag的相关性数据 | 包含tag信息 | 电影在IMDb与TMDb中的ID | 电影信息 | 用户对电影的评分信息 | 用户对电影的tag数据 | Top10000电影名称,上映时间,评分,投票数,时长和流派信息 |
爬取目标:Top10000电影imdbID,名称,上映时间,评分,投票数,时长和流派信息