从零开始教你用Course Crawler爬虫工具

背景:

Course Crawler是一个开源项目,这个可以爬取一些学习视频,比如我最近在看Java,就爬了
一些Java的学习视频;
在这里插入图片描述
这世上没有无缘无故的爱憎。。。我写这个文档的原因是…之前把这个爬虫工具介绍给了一个
小伙伴,我说随便搞两个小时你就会了。

在这里插入图片描述

结果朋友这样回答我

在这里插入图片描述

在这里插入图片描述

一: 进入正题前,让我们扯点别的。。。

磨难不会让人成长,但是对磨难的反思会;我还依稀记得我大学我C语言考了65分,我感到很
羞愧,因为是院长教的,但我学习的那么差;将心比心,我毕竟工作了一年半了,看这个捣鼓起来比较快,要是一个啥也不会的小白你让人家咋整(比如我那个朋友,看到不要打我…)

在我刚毕业的时候,要是有人给我推荐一个网站,然后BlaBla说两个小时就能学会,我一定打爆他的狗头,问问他说的是人话吗,我连第一步都不会啊(这么坚强的我为啥哭了)。
在这里插入图片描述

二:

那我们进入正题呗… 先安装Python

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
弹出一系列的Python版本,我们就用最新的吧3.8.1的;
在这里插入图片描述
在D盘新建一个文件夹:

在这里插入图片描述

然后双击下载好的安装包安装:
在这里插入图片描述

我要改下安装路径:

在这里插入图片描述

注意这个pip后面会用到,继续点击Next,所有都默认好了…反正又不是用Python搞开发…

在这里插入图片描述
在这里插入图片描述

OK,Python安装成功了,我们close掉界面。

在这里插入图片描述

三:

安装这个爬虫工具需要的运行库, (这就是我那个朋友说的第一步就不会的地方…)

我们先找到pip的位置:(上面我自定义安装的)
D:\Python\Scripts

在这里插入图片描述

处于上面这个界面,在空白区域同时按住键盘上的shirft以及鼠标右键打开命令行窗口(WIN7);

在这里插入图片描述

如果是win10,它使用Powershell窗口替代了命令行;
在这里插入图片描述

OK,接下来我们输入命令:

pip install requests BeautifulSoup4 lxml

在这里插入图片描述

卧槽居然有报错,那我们按照它的提示再整下(win7就不会报错,只是格式不同):

.\pip install requests BeautifulSoup4 lxml

在这里插入图片描述

稳,安装成功了

在这里插入图片描述

四:

现在东西都准备好了,我们去github下载这个爬虫工具本身,感谢作者;

https://github.com/Foair/course-crawler

在这里插入图片描述

我们在浏览器输入地址,然后下载

在这里插入图片描述

把压缩包放到Python同级目录:

在这里插入图片描述

进入: D:\Python\course-crawler-master

还是和刚才一样,用shift+鼠标右键打开Powershell

在这里插入图片描述

五: 我们找下资源地址,比如我想看浙大陈越教授的数据结构:

在这里插入图片描述

这个还没开始,我们找下之前的,第10次的;
在这里插入图片描述

必须处于当前界面,把网址拷贝:

win7输入: mooc.py https://www.icourse163.org/course/ZJU-93001?tid=1207006212

win10输入: .\mooc.py https://www.icourse163.org/course/ZJU-93001?tid=1207006212

在这里插入图片描述

各种课件、pdf、视频源地址都爬好了:

在这里插入图片描述
进入Videos文件夹,然后可以用下载工具把视频下下来(比如用迅雷)之后用批处理文件,Rename.bat批处理文件,就能把文件名显示正常了。

在这里插入图片描述

之后大家可以用Potplayer播放器播放视频文件(强烈推荐,没有广告,这个是音视频开发常用的软件)

请大家不要把视频用于商业用途,如果要表达感谢,请给作者加个star.

希望对大家有帮助,努力学习感兴趣的课程,并且坚持下去,共勉!

OVER!

参考链接:

  1. https://github.com/Foair/course-crawler
  2. https://mooc.xoy.io/#/quick-start?tdsourcetag=s_pctim_aiomsg
发布了7 篇原创文章 · 获赞 2 · 访问量 2457

猜你喜欢

转载自blog.csdn.net/Codeliang666/article/details/103940438