这次是一只简单的爬虫, 代码只有五行, 目的是爬去一张网页上的图片
先展示代码吧
import urllib.request
r = urllib.request.urlopen('http://image.samanlehua.com/mh/25933.jpg')
r = r.read()
with open('picture.jpg', 'wb') as f:
f.write(r)
- 第一行: 导入urllib.request模块
- urllib意思是url library. 是一个它提供了一系列操作url的功能, 是一个常用的也比较基础的基本库.
-
request模块的文档介绍是这样的:
for opening and reading URLs
. 所以, 我们要打开并读取一个url的内容就可以用url.request, 因为我们只需要用urllib的这一个模块, 所以只导入这个模块就好了. - 第二行: 调用urlopen方法获取url内容
- 第三行: 调用read()方法
- 因为我们找到的这个url是图片文件, 它是二进制文件, 所以不用进行转码. 也就是说不用调用decode方法.
- 第四, 五行: 文件操作, 将图片保存
-
这两行代码就是python的文件操作了, 打开一个
picture.jpg
文件, 并且以wb
的形式写入我们从url上读取的内容.
OK, 现在我们可以看到文件夹中出现了一个文件picture.jpg
了, 也就是我们url链接的图片.
需要注意的是: 这个图片url链接是预先要知道的(自己到网页源代码里找). 所以说这个程序是非常鸡肋的, 但对初学爬虫者来说也算是个项目了.