一、curl 工具
curl命令是一个利用URL规则在命令行下工作的文件传输工具。它支持文件的上传和下载,所以是综合传输工具,但按传统,习惯称curl为下载工具。作为一款强力工具,curl支持包括HTTP、HTTPS、ftp等众多协议,还支持POST、cookies、认证、从指定偏移处下载部分文件、用户代理字符串、限速、文件大小、进度条等特征。做网页处理流程和数据检索自动化,curl可以祝一臂之力。
1.1 基本语法
curl (选项) (Url地址)
1.2 选项
-a/--append | 上传文件时,附加到目标文件 |
-A/--user-agent <string> | 设置用户代理发送给服务器 |
-anyauth | 可以使用“任何”身份验证方法 |
-b/--cookie <name=string/file> | cookie字符串或文件读取位置 |
--basic | 使用HTTP基本验证 |
-B/--use-ascii | 使用ASCII /文本传输 |
-c/--cookie-jar <file> | 操作结束后把cookie写入到这个文件中 |
-C/--continue-at <offset> | 断点续转 |
-d/--data <data> | HTTP POST方式传送数据 |
--data-ascii <data> | 以ascii的方式post数据 |
--data-binary <data> | 以二进制的方式post数据 |
--negotiate | 使用HTTP身份验证 |
--digest | 使用数字身份验证 |
--disable-eprt | 禁止使用EPRT或LPRT |
--disable-epsv | 禁止使用EPSV |
-D/--dump-header <file> | 把header信息写入到该文件中 |
--egd-file <file> | 为随机数据(SSL)设置EGD socket路径 |
--tcp-nodelay | 使用TCP_NODELAY选项 |
-e/--referer | 来源网址 |
-E/--cert <cert[:passwd]> | 客户端证书文件和密码 (SSL) |
--cert-type <type> | 证书文件类型 (DER/PEM/ENG) (SSL) |
--key <key> | 私钥文件名 (SSL) |
--key-type <type> | 私钥文件类型 (DER/PEM/ENG) (SSL) |
--pass <pass> | 私钥密码 (SSL) |
--engine <eng> | 加密引擎使用 (SSL). "--engine list" for list |
--cacert <file> | CA证书 (SSL) |
--capath <directory> | CA目录 (made using c_rehash) to verify peer against (SSL) |
--ciphers <list> | SSL密码 |
--compressed | 要求返回是压缩的形势 (using deflate or gzip) |
--connect-timeout <seconds> | 设置最大请求时间 |
--create-dirs | 建立本地目录的目录层次结构 |
--crlf | 上传是把LF转变成CRLF |
-f/--fail | 连接失败时不显示http错误 |
--ftp-create-dirs | 如果远程目录不存在,创建远程目录 |
--ftp-method [multicwd/nocwd/singlecwd] | 控制CWD的使用 |
--ftp-pasv | 使用 PASV/EPSV 代替端口 |
--ftp-skip-pasv-ip | 使用PASV的时候,忽略该IP地址 |
--ftp-ssl | 尝试用 SSL/TLS 来进行ftp数据传输 |
--ftp-ssl-reqd | 要求用 SSL/TLS 来进行ftp数据传输 |
-F/--form <name=content> | 模拟http表单提交数据 |
--form-string <name=string> | 模拟http表单提交数据 |
-g/--globoff | 禁用网址序列和范围使用{}和[] |
-G/--get | 以get的方式来发送数据 |
-H/--header <line> | 自定义头信息传递给服务器 |
--ignore-content-length | 忽略的HTTP头信息的长度 |
-i/--include | 输出时包括protocol头信息 |
-I/--head | 只显示请求头信息 |
-j/--junk-session-cookies | 读取文件进忽略session cookie |
--interface <interface> | 使用指定网络接口/地址 |
--krb4 <level> | 使用指定安全级别的krb4 |
-k/--insecure | 允许不使用证书到SSL站点 |
-K/--config | 指定的配置文件读取 |
-l/--list-only | 列出ftp目录下的文件名称 |
--limit-rate <rate> | 设置传输速度 |
--local-port<NUM> | 强制使用本地端口号 |
-m/--max-time <seconds> | 设置最大传输时间 |
--max-redirs <num> | 设置最大读取的目录数 |
--max-filesize <bytes> | 设置最大下载的文件总量 |
-M/--manual | 显示全手动 |
-n/--netrc | 从netrc文件中读取用户名和密码 |
--netrc-optional | 使用 .netrc 或者 URL来覆盖-n |
--ntlm | 使用 HTTP NTLM 身份验证 |
-N/--no-buffer | 禁用缓冲输出 |
-o/--output | 把输出写到该文件中 |
-O/--remote-name | 把输出写到该文件中,保留远程文件的文件名 |
-p/--proxytunnel | 使用HTTP代理 |
--proxy-anyauth | 选择任一代理身份验证方法 |
--proxy-basic | 在代理上使用基本身份验证 |
--proxy-digest | 在代理上使用数字身份验证 |
--proxy-ntlm | 在代理上使用ntlm身份验证 |
-P/--ftp-port <address> | 使用端口地址,而不是使用PASV |
-q | 作为第一个参数,关闭 .curlrc |
-Q/--quote <cmd> | 文件传输前,发送命令到服务器 |
-r/--range <range> | 检索来自HTTP/1.1或FTP服务器字节范围 |
--range-file | 读取(SSL)的随机文件 |
-R/--remote-time | 在本地生成文件时,保留远程文件时间 |
--retry <num> | 传输出现问题时,重试的次数 |
--retry-delay <seconds> | 传输出现问题时,设置重试间隔时间 |
--retry-max-time <seconds> | 传输出现问题时,设置最大重试时间 |
-s/--silent | 静默模式。不输出任何东西 |
-S/--show-error | 显示错误 |
--socks4 <host[:port]> | 用socks4代理给定主机和端口 |
--socks5 <host[:port]> | 用socks5代理给定主机和端口 |
--stderr <file> | |
-t/--telnet-option <OPT=val> | Telnet选项设置 |
--trace <file> | 对指定文件进行debug |
--trace-ascii <file> | Like --跟踪但没有hex输出 |
--trace-time | 跟踪/详细输出时,添加时间戳 |
-T/--upload-file <file> | 上传文件 |
--url <URL> | Spet URL to work with |
-u/--user <user[:password]> | 设置服务器的用户和密码 |
-U/--proxy-user <user[:password]> | 设置代理用户名和密码 |
-w/--write-out [format] | 什么输出完成后 |
-x/--proxy <host[:port]> | 在给定的端口上使用HTTP代理 |
-X/--request <command> | 指定什么命令 |
-y/--speed-time | 放弃限速所要的时间,默认为30 |
-Y/--speed-limit | 停止传输速度的限制,速度时间 |
1.3 实例
1)基本用法
curl http://www.linux.com
执行后,www.linux.com 的 html 就会显示在屏幕上了,默认情况下下 curl 执行的是 GET 操作,所以可以当做 wget 使用。
2)使用选项 -o 将下载数据写入到指定名称的文件中
curl -o linux.html http://www.linux.com
3)使用选项 -O 保存网页中的文件,必须使用文件的绝对地址
curl -O http://www.linux.com/hello.sh
4)循环下载
有时候下载图片可以能是前面的部分名称是一样的,就最后的尾椎名不一样:
curl -O http://www.linux.com/dodo[1-5].JPG
5)下载重命名
curl -O http://www.linux.com/{hello,bb}/dodo[1-5].JPG
由于下载的hello与bb中的文件名都是dodo1,dodo2,dodo3,dodo4,dodo5。因此第二次下载的会把第一次下载的覆盖,这样就需要对文件进行重命名:
curl -o #1_#2.JPG http://www.linux.com/{hello,bb}/dodo[1-5].JPG
这样在hello/dodo1.JPG的文件下载下来就会变成hello_dodo1.JPG,其他文件依此类推,从而有效的避免了文件被覆盖。
6)分段下载
有时候下载的东西会比较大,这个时候我们可以分段下载,使用内置 -r 选项:
# curl -r 0-100 -o dodo1_part1.JPG http://www.linux.com/dodo1.JPG # curl -r 100-200 -o dodo1_part2.JPG http://www.linux.com/dodo1.JPG # curl -r 200- -o dodo1_part3.JPG http://www.linux.com/dodo1.JPG # cat dodo1_part* > dodo1.JPG
这样就可以查看dodo1.JPG的内容了。
7)通过ftp下载文件
curl提供两种从ftp中下载的语法:
# curl -O -u 用户名:密码 ftp://www.linux.com/dodo1.JPG # curl -O ftp://用户名:密码@www.linux.com/dodo1.JPG
8)显示、隐藏下载进度条
curl -# -O http://www.linux.com/dodo1.JPG curl -s -O http://www.linux.com/dodo1.JPG
9)断点续传
在windows中,我们可以使用迅雷这样的软件进行断点续传。curl可以通过 -C 选项达到相同的效果。
如果在下载 dodo1.JPG 的过程中突然掉线了,可以使用以下的方式续传:
# curl -C -O http://www.linux.com/dodo1.JPG
10)上传文件
curl 不仅可以下载文件,还可以上传文件,使用 -T 选项:
# curl -T dodo1.JPG -u 用户名:密码 ftp://www.linux.com/img/
这样就向 ftp 服务器上传了文件 dodo1.JPG。
11)测试网页返回值
curl -o /dev/null -s -w %{http_code} www.linux.com
在脚本中,这是很常见的测试网站是否正常的用法。
12)指定代理服务器以及其端口
curl -x 192.168.100.100:1080 http://www.linux.com
很多时候上网需要用到代理服务器(比如是使用代理服务器上网或者因为使用 curl 别人网站而被别人屏蔽 IP 地址的时候),需要用到 -x 来支持设置代理。
13)设置 cookies
使用 --cookie "COKKIES"选项来指定cookie,多个cookie使用分号分隔:
curl http://www.linux.com --cookie "user=root;pass=123456"
使用 --cookie-jar选项来保存 http 的 response 里面的 cookie 信息:
curl --cookie-jar cookiec.txt http://www.linux.com
14)保存 http 的 response 里面的 header 信息
curl -D cookied.txt http://www.linux.com
15)设置用户代理字符串
有些网站需要使用特定的浏览器去访问他们,有些还需要使用某些特定的版本,这是因为这些网站设置了检查用户代理,使用 --user-agen t或者 -A 选项:
curl -A "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.0)" http://www.linux.com
16)伪造 Referer
很多服务器会检查 http 访问的 referer 从而来控制访问。比如:你是先访问首页,然后再访问首页中的邮箱页面,这里访问邮箱的 referer 地址就是访问首页成功后的页面地址,使用 -e 选项:
curl -e "www.linux.com" http://mail.linux.com
这样就会让服务器其以为你是从 www.linux.com 点击某个链接跳转过来的。
17)显示抓取错误
curl -f http://www.linux.com/error
二、Shell Script 实例
有时我们的软件需要自动根据到网上去获取当前版本是否要更新,如果需要更新则下载一些必要的文件:
- 首先判断本地的 version 文件,读取
- 用 curl 访问远程 conf.txt,然后读取第二行
- 本地的版本和远程版本进行比较,如果版本小则:① 模拟post访问update.php,并获取需要下载的地址;② 使用wget下载下来
LOCAL_VER=`cat version` REMOTE_VER=`curl http://www.jtthink.com/test/conf.txt -s | sed -n '2p'` #echo $REMOTE_VER if [ $LOCAL_VER -lt $REMOTE_VER ] then # echo "begin update" GET_UPDATE=`curl -d "password=123" http://www.jtthink.com/test/update.php -s` wget $GET_UPDATE echo "2">version fi