用wget做站点镜像 -- ::
分类: LINUX # wget -r -p -np -k http://xxx.edu.cn -r 表示递归下载,会下载所有的链接,不过要注意的是,不要单独使用这个参数,因为如果你要下载的网站也有别的网站的链接,wget也会把别的网站的东西下载下来,所以要加上-np这个参数,表示不下载别的站点的链接.
-np 表示不下载别的站点的链接.
-k 表示将下载的网页里的链接修改为本地链接.
-p 获得所有显示网页所需的元素,比如图片什么的. -E 或 --html-extension 将保存的URL的文件后缀名设定为“.html” +++++++++++++++++++++++++++++++++++++++
# wget -c -t -O rhel6_x86_64.iso http://zs.kan115.com:8080/rhel6_x86_64.iso -c 断点续传
-t 反复尝试的次数,0为不限次数
-O rhel6_x86_64.iso 把下载的文件命名为rhel6_x86_64.iso
http://zs.kan115.com:8080/rhel6_x86_64.iso 要下载的文件的网址 +++++++++++++++++++++++++++++++++++++++ wget高级用法 http://blog168.chinaunix.net/space.php?uid=26050273&do=blog&id=1742503 摘要:本文讲述了wget的一些高级用法,比如另存为,后台下载,断点下载。批量下载。
增加下载尝试次数和测试下载链接是否生效。
记录下载日志,下载和排除指定类型文 件。 、下载单个文件
wget url+filename 下载过程中同时可以看到四项信息
已经下载的比例
已经下载的大小
当前下载的速度
剩余的时间 、使用一个大写O做参数表示另存为
wget -O save_name url 这种方法适用于对应链接中没有显式文件名的情况。 例如: wget -O xx.zip http://www.vim.org/scripts/download_script.php?src_id=7701 再用不带-O参数的下载一次。 ls -al
总计
drwxr-xr-x root root - : .
drwxr-xr-x root root - : ..
-rw-r--r-- root root - : download_script.php?src_id=
-rw-r--r-- root root - : xx.zip 我们发现,下载的大小都是一样。但是不带-O参数的,文件名还要转换一次。不如用-O参数方便。 mv "download_script.php?src_id=7701" yy.zip 、指定下载速率
方法是使用wget --limit-rate wget程序默认是使用所有的带宽,如果
是在生产服务器上下载很大的文件就不可接受了。
为了避免这种情况使用--limit-rate参数
wget --limit-rate=200k http://www.openss7.org/repos/tarballs/strx25-0.9.2.1.tar.bz2 、断点下载 使用wget -c完成未完成的下载 下载到一半需要停下来干别的事情,用^c就可以停顿住。 回来后,继续下载可以加一个-c参数。 注意:如果不加入-c,那么下载的文件会多出一个.1的后缀。 、在后台下载
方法:加一个-b的参数 wget -b url/filename
为后台下载。下载经过写入到wget-log文件中。 用tail -f wget-log查看下载日志 、模拟在浏览器下下载 有的网站不允许客户在非浏览器环境下下载。使用--user-agent来设置 wget --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" URL-TO-DOWNLOAD 、测试下载链接
方法:使用--spider 试图做计划下载时候,需要先检查一下下载链接是否有效。 wget --spider DOWNLOAD-URL 如果返回OK,则表示下载链接是正确的! 例如
wget --spider "http://ip138.com/ips.asp?ip=58.251.193.137&action=2"
Spider mode enabled. Check if remote file exists.
---- ::-- http://ip138.com/ips.asp?ip=58.251.193.137&action=2
正在解析主机 ip138.com... 221.5.47.136
Connecting to ip138.com|221.5.47.136|:... 已连接。
已发出 HTTP 请求,正在等待回应... OK
长度: (.6K) [text/html]
Remote file exists and could contain further links,
but recursion is disabled -- not retrieving. 、增加尝试次数
方法:--tries=
如果网速有问题,下载大文件的时候可能会发生错误,
默认wget尝试20次链接。 如果尝试75次,可以
wget --tires= DOWNLOAD-URL 、下载多个文件使用wget -i
将多个下载链接写入到一个download-file-list.txt文件中,而后用 wget -i download-file-list.txt 、下载整站
方法:用--mirror参数 当你要下载一个完整站点并实现本地浏览的时候,
wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL 参数讲解:
--mirror:设置这个参数用来建立本地镜像
-p:下载所有html文件适合显示的元素
--convert-links:下载完成后,将文档链接都转换成本地的
-P ./LOCAL-DIR:保存所有的文件和目录到指定文件夹下 、下载时候禁止下载指定类型的文件 例如下载站点时候,不打算下载gif动画图片。 wget --reject=gif WEBSITE-TO-BE-DOWNLOADED 、记录下载日志
方法:使用小写字母o wget -o xx.html.log -O xx.html "http://ip138.com/ips.asp?ip=58.251.193.137&action=2" 检查一下日志:
[root@localhost opt]# cat xx.html.log
---- ::-- http://ip138.com/ips.asp?ip=58.251.193.137&action=2
正在解析主机 ip138.com... 221.5.47.136
Connecting to ip138.com|221.5.47.136|:... 已连接。
已发出 HTTP 请求,正在等待回应... OK
长度: (.6K) [text/html]
Saving to: `xx.html' 0K ....... % .5K=.1s -- :: (65.5 KB/s) - `xx.html' saved [7817/7817] 、是第9条的增强版。可以限制下载容量 wget -Q5m -i FILE-WHICH-HAS-URLS 当下载的文件达到5兆的时候,停止下载。
注意:如果不是对一个文件下载链接清单,对单个文件,
这个限制不会生效的。 、和第11条正好相反,
这条技巧是讲述如何仅仅下载指定类型的文件 从一个网站中下载所有的pdf文件 wget -r -A.pdf http://url-to-webpage-with-pdfs/ 、使用wget完成ftp下 载 匿名ftp下载类似于http下载
wget ftp-url即可。 如果是需要输入用户名和密码,则是 wget --ftp-user=USERNAME --ftp-password=PASSWORD DOWNLOAD-URL +++++++++++++++++++++++++++++++++++++++
WEB采集研究之 WGET 使用手册
http://stream2080.blog.163.com/blog/static/299032852008769409368/ WEB采集也快3年了,多多少少碰到不少问题,总结总结牢骚一下~有用人得到那更好 今天上经典工具wget的使用吧(奇怪blog的附件该怎么放?) http://www.gnu.org/software/wget/ WGET 手册
适用于版本 wget 1.1 . WGet的功能
() 后台工作
() 支持HTTP、HTTPS、FTP
() 支持HTTP Proxy
() 跟踪HTML、XHTML中的超链接
() 创建远程站点为本地镜像
() 转换下载后HTML文件的链接
() 下载FTP文件时支持含通配符的文件名
() 慢网速、不稳定网络支持
() 支持IPv6
. WGet命令 wget [option]... [URL]...
() URL格式
http://host[:port]/directory/file
ftp://host[:port]/directory/file
ftp://user:password@host/path
http://user:password@host/path
*可以对URL中的不安全字符进行“%编码”
ftp://host/directory/file;type=a
*“type=a”表示以ASCII格式下载FTP文件
*“type=i”表示以Binary格式下载FTP文件
() Option语法
使用GNU getopt处理命令行参数,每个选项都有简写形式(以“-”开头)和完
整形式(以“--”开头),如:
wget -r --tries= http://fly.srk.fer.hr/ -o log
可以将不需要额外参数的选项连接在一起,如:
wget -drc URL 等效于 wget -d -r -c URL
可以用“--”来结束选项,如:
wget -o log -- -x
中的“-x”被当作URL来解析。
大多数选项因为是开关参数而不接受参数
() WGet基本启动选项
-V
--version
显示wget的版本号
-h
--help
打印描述wget所有选项的帮助信息
-b
--background
启动后立即转到后台执行;若未使用“-o”选项指定输出文件名,则输出重定向到
/
“wget-log”文件中
-e command
--execute command
执行.wgetrc配置文件中的命令,关于.wgetrc配置文件的详细内容见后面的“启动文
件”部分
() 日志记录及输入文件选项
-o logfile
--output-file=logfile
将所有信息记录到日志文件logfile中
-a logfile
--append-output=logfile
将日志内容添加到logfile尾部,而不是覆盖旧的logfile
-d
--debug
打开调试输出信息,该选项对于wget的开发者非常有用。若wget编译时未打开调试
支持,则此选项无效
-q
--quiet
关闭wget的输出
-v
--verbose
打开详细输出,显示所有变化信息,默认此选项是打开的
-nv
--non-verbose
关闭详细输出,但仍然会输出错误信息和基本信息
-i file
--input-file=file
从文件file中读URL,若这里“file”=“-”,则URL从标准输入读取,请使用“./-”来读取
文件名为“-”的文件
-F
--force-html
当URL输入是从一个文件中读取时,可以强制指定该文件为HTML文件,而不管此
文件实际是什么格式的。这样使您可以下载现有HTML文件中的相对链接到本地,
但需要添加“”到HTML中,或使用--base command-line选项。
-B URL
--base=URL
与“-F”选项协同工作,相当于添加“”到“-i”指定的文件中
() 下载选项
--bind-address=ADDRESS
当建立客户端TCP/IP连接时,将ADDRESS绑定到本地机器,ADDRESS可以是主机
名或IP地址,当您的主机绑定了多个IP时,该选项非常有用
-t number
--tries=number
设定网络不好时wget的重连次数,默认是20次,当number =0时代表无限次重连,
/
当遇到致命错误如“connection refused”或“not found”(),则停止自动重连
-O file
--output-document=file
将下载的文件全部连接在一起写入文件file
-nc
--no-clobber
若同一路径下存在相同文件名的文件则不再下载,这里clobber有点用词不当
-c
--continue
继续下载未完成的下载,例如
wget -c ftp://sunsite.doc.ic.ac.uk/ls-lR.Z
如果本地存在的ls-lR.Z这个文件的长度小于对应的远程文件,则wget将从本地文件
长度的偏移量处开始下载远程同名文件
--progress=type
选择下载进度条的形式,合法的type有“dot”和“bar”(默认)两种
-N
--timestamping
打开时戳,详见“时戳”部分
-S
--server-response
打印HTTP服务器发送的HTTP头部及FTP服务器发送的响应
--spider
当打开此选项,wget将工作在Web Spider模式下。Wget不下载页面,仅仅是检查这
些页面是否还存在。例如,可以使用wget来检查您的书签:
wget --spider --force-html -i bookmarks.html
-T seconds
--timeout=seconds
设定网络超时时间为seconds秒,等效于同时设定“--dns-timeout”,“--connect-timeout”
以及“--read-timeout”。默认是900秒读超时,超时相关选项仅接受十进制数值,支
持小数(如0.1秒)
--dns-timeout=seconds
设定DNS查询超时时间,默认无DNS超时时间
--connect-timeout=seconds
设定连接超时时间,默认无DNS超时时间
--read-timeout=seconds
设定读写超时时间(即进程挂起时间),该选项不直接影响整个下载过程,默认读
超时时间是900秒
waitretry=seconds
若不需要在重新获取页面时等待,而仅当下载失败时等待指定时间。在默认的
wgetrc配置文件中此选项是关闭的
--random-wait
在0~2倍等待时间之间随机选择重新获取文件的等待时间,以躲过网站日志分析。
--no-proxy
不使用代理(即使定义了*_proxy环境变量)
/
-Q quota
--quota=quota
指定自动下载的限额,quota值是字节数;配额不影响单个文件的下载,主要用于
回归下载和URL输入是文件时
--no-dns-cache
关闭DNS查询缓冲
--restrict-file-names=mode
替换远端URL中在本机受限制的字符,例如,用%编码替换。默认情况下,wget
是跳过这些字符(包括控制字符)。当设定mode为“unix”时,wget跳过字符“/”以及
ASCII值在0–31和128–159之间的控制字符,这在unix类操作系统中的默认规定;当
设定mode为“windows”时,wget跳过的字符包括“\”、“|”、“/”、“:”、“?”“"”、“*”、“<”、
“>”,以及与unix系统中相同的控制字符。在windows模式中,wget使用“+”代替“:”
以分隔本地文件名中的主机和端口;使用“@”代替“?”以分隔文件名中的查询参数。
例如:在unix模式下的URL:www.xemacs.org:/search.pl?input=blah,在windows
模式下则表示为:www.xemacs.org+/search.pl@input=blah。若要跳过控制字符,
则可以使用:--restrict-file-names=nocontrol
-
--inet4-only
-
--inet6-only
强制连接IPv4地址或IPv6地址
--prefer-family=IPv4/IPv6/none
指定优先考虑特定地址族,默认是IPv4
--retry-connrefused
把“connection refused”当成是暂态错误并再次尝试
--user=user
--password=password
为HTTP或FTP文件获取指定用户名密码
() 目录选项
-nd
--no-directories
当递归地获取文件是,不创建分层的目录
-x
--force-directories
强迫创建一个分层目录,即使该目录本地不存在
-nH
--no-host-directories
禁用主机名前缀的目录
--protocol-directories
使用协议名作为本地文件名的一个路径项
--cut-dirs=number
忽略number部分的目录成分,例如:
无选项 -> ftp.xemacs.org/pub/xemacs/
-nH -> pub/xemacs/
/
-nH --cut-dirs= -> xemacs/
-nH --cut-dirs= -> .
无选项 -> ftp.xemacs.org/pub/xemacs/
--cut-dirs= -> ftp.xemacs.org/xemacs/
-P prefix
--directory-prefix=prefix
设定目录前缀为prefix。默认是“.”
() HTTP选项
-E
--html-extension
将保存的URL的文件后缀名设定为“.html”
--http-user=user
--http-password=password
指定某个HTTP服务器上的用户名和密码,wget使用基本授权方案或消息摘要方案
对用户名和密码进行加密
--no-cache
禁用Server端的cache,这对从代理服务器上重新获取本地已经过期的文档非常有效。
wget默认是允许使用cache
--no-cookies
禁用cookie;wget默认允许使用cookie
--load-cookies file
在第一次的HTTP重新获取前,从txt文件file中加载cookie
--save-cookies file
退出前将cookie保存到file文件中,但不保存已过期的cookie和无有效期的cookie(会
话cookie)
--keep-session-cookies
若设定此项,则--save-cookies file也保存会话cookie
--ignore-length
忽略HTTP中的Content-Length头,不仅仅下载Content-Length指定的长度
--header=header-line
在下载的HTML文件中添加头部header-line,例如:
wget --header='Accept-Charset: iso-8859-2' \
--header='Accept-Language: hr' \
http://fly.srk.fer.hr/
wget --header="Host: foo.bar" http://localhost/意义是:
wget连接到localhost,但是在Host头部指定foo.bar
--proxy-user=user
--proxy-password=password
为代理服务器的授权指定用户名和密码,wget采用基本授权方法对用户名和密码编

--referer=url
在HTTP请求中添加“Referer: url”
--save-headers
/
保存HTTP发送的头部到文件中
-U agent-string
--user-agent=agent-string
将自己标识为agent-string
--post-data=string
--post-file=file
使用POST方法在HTTP请求中发送特定数据。注意,wget需要事先知道数据长度应
用举例:
#登陆到服务器
wget --save-cookies cookies.txt \
--post-data 'user=foo&password=bar' \
http://server.com/auth.php
#开始“爬”网页
wget --load-cookies cookies.txt \
-p http://server.com/interesting/article.php
() HTTPS (SSL/TLS)选项
--secure-protocol=protocol
选择使用的安全协议,protocol合法值包括:auto,SSLv2,SSLv3及TLSv1
--no-check-certificate
不按照有效证书授权检查服务器授权证书
--certificate=file
使用客户端保存在file中的证书
--certificate-type=type
设定客户端认证方式,默认方式是PEM以及DER(也就是ASN1)
--private-key=file
从文件中读取私钥
--private-key-type=type
设定私钥类型,合法值包括:PEM(默认)和DER
--ca-certificate=file
用指定文件对对等端(peer)进行CA(certificate authorities)认证
--ca-directory=directory
指定包含PEM格式的CA认证目录
--random-file=file
指定特定文件为伪随机数生成器的数据源
--egd-file=file
指定特定文件为EGD(Entropy Gathering Daemon) socket
() FTP选项
--ftp-user=user
--ftp-password=password
指定某个FTP服务器上的用户名和密码
--no-remove-listing
不删除在获取FTP文件时生成的临时的.listing文件
--no-glob
关闭FTP通配符,默认允许使用通配符
/
--no-passive-ftp
禁用被动FTP传输模式
--retr-symlinks
转换符号链接,并指向下载的文件
--no-http-keep-alive
关闭HTTP下载的“keep-alive”特性
() 递归获取选项
-r
--recursive
打开递归获取选项
-l depth
--level=depth
指定递归的最大深度,默认最大深度是5
--delete-after
在单一文档下载后立即删除
-k
--convert-links
下载完成后,转换页面中的链接以方便本地浏览
链接转换的两种方式:
a. 指向已下载文件的链接,则转换为相对链接
b. 指向未能下载成功的文件的链接,转换为“http://localhost/...”形式
-K
--backup-converted
转换链接前将原始文件备份(后缀为.orig)
-m
--mirror
打开适合与做镜像的选项(recursion、time-stamping等)
-p
--page-requisites
下载能够完全显示一个给定的HTML网页的所有文件
--strict-comments
精确解析HTML注释,默认是遇到第一个“-->”即终止解析
() 递归接受/拒绝选项
-A acclist
--accept acclist
-R rejlist
--reject rejlist
设定接受/拒绝递归下载以逗号分开的文件名前缀或模式列表
-D domain-list
--domains=domain-list
设定要追踪的域
--exclude-domains domain-list
指定不要求追踪的域
/
--follow-ftp
追踪HTML文档中的FTP链接,默认忽略所有FTP链接
--follow-tags=list
Wget包含一个HTML标记/属性对列表,按照list列表文件追踪HTML标记
--ignore-tags=list
不追踪list列表文件指定的HTML标记
-H
--span-hosts
允许跨越服务器进行递归下载
-L
--relative
仅追踪相对链接
-I list
--include-directories=list
指定追踪目录
-X list
--exclude-directories=list
指定不追踪的目录
-np
--no-parent
不向上追踪到父目录
. 递归下载
() 遍历万维网的一部分或一台HTTP服务器或FTP服务器
() 追踪链接或目录结构
() 利用输入的URL或文件解析HTML
() HTTP递归下载采用广度优先算法,最大深度可以设定(默认为5)
() FTP递归下载采用深度优先算法,能够下载FTP服务器直到给定深度的所有数据
() 能够镜像FTP站点
() 默认按照远程站点目录结构创建本地目录
() 使用递归下载时注意使用延时操作
() 一些例子
? 下载单一网页,使用--page-requisites选项
? 下载单一目录下的某些文件,使用-np选项
? 下载单一目录下的所有文件,使用-l 1选项
. 链接追踪 如何避免下载不想要的链接
() 访问主机的树型扩展(默认情况下,每次下载仅访问一台主机)
? 扩展至任何关联主机XX-H选项
? 限制扩展至某些域XX-D选项
例如:wget -rH -Dserver.com http://www.server.com/
可以从所有*.server.com域下载文件
? 禁止扩展至某些域XX--exclude-domains选项
例如:wget -rH -Dfoo.edu --exclude-domains sunsite.foo.edu \
/
http://www.foo.edu/
从所有foo.edu域下载文件,而禁止从sunsite.foo.edu下载文件
() 文件类型限制
-A acclist
--accept acclist
accept = acclist
--accept选项的参数是一个文件名后缀(如gif或.gif)或字符串模式列表(如czy*
or czyBear*[-]*)
-R rejlist
--reject rejlist
reject = rejlist
--reject选项与--accept选项工作方式相同,但逻辑相反
注意:这两个选项不影响HTML文件下载
() 基于目录的限制
-I list
--include list
include_directories = list
下载目录列表中的目录
-X list
--exclude list
exclude_directories = list
禁止下载目录列表中的目录
-np
--no-parent
no_parent = on
禁止访问远端当前目录的上层
() 相对链接
打开-L选项可以仅下载超链接中的相对链接,而不下载绝对链接
() 追踪FTP链接
由于FTP与HTTP协议的不同,所以要追踪FTP链接请使用--follow-ftp选项
. 使用时戳对下载的文件进行增量更新
使用-S选项可以在本地保留页面对应的时戳,进行增量下载是使用-N选项,例如:
初次下载网页使用:wget -S http://www.gnu.ai.mit.edu/
以后更新网页使用:wget -N http://www.gnu.ai.mit.edu/
对于HTTP协议,时戳需要“Last-Modified”头部支持,而对于FTP协议,取决于wget
能够解析获得目录列表中包含的日期的格式
. 启动文件(wgetrc)
() Wgetrc的位置
wget启动时,将查找全局的启动配置文件,默认情况下,这个文件位于:
“/usr/local/etc/wgetrc”;若该位置不存在此文件,则查找环境变量WGETRC指定的
位置;若WGETRC环境变量未设定,wget会加载$HOME/.wgetrc;否则报错!
/
() Wgetrc语法
wgetrc命令行的语法非常简单:“variable = value”。wgetcrc命令行语法不区分
大小写,不区分有无下划线,忽略空行和以“#”开头的行
() Wgetrc命令
wgetrc命令全集如下表:
一些说明: 合法值都列在“=”后面;
Bool值得设定可以用on/off或1/;
某些命令使用了伪随机数;
“address”可以是主机名或以点分十进制表示的IP地址;
“n”可以是正整数或无穷大(inf)
“string”可以是任何非空字符串
命令 说明
accept/reject = string 相当于-A/-R
add_hostdir = on/off 允许/禁止使用主机名前缀的文件名;可以用-nH禁用
continue = on/off 允许/禁止继续完成下载部分完成的文件
background = on/off 允许/禁止后台运行;相当于-b
backup_converted =
on/off
允许/禁止用后缀名.orig保存转换前的文件;相当于-K
base = string 用于绝对地址于相对地址的替换;相当于--base=string
bind_address = address 地址绑定;相当于--bind-address=address
ca_certificate = file 设定权限认证文件;相当于--ca-certificate=file
ca_directory = directory 设定权限认证文件的目录;相当于--ca-directory=directory
cache = on/off 打开/关闭服务器cache;相当于--no-cache
certificate = file 设定客户端认证文件;相当于--certificate=file
certificate_type = string 设定认证类型;相当于--certificate-type=string
check_certificate =
on/off
设定是否进行授权确认;相当于--check-certificate
convert_links = on/off 是否转换非相对链接;相当于-k
cookies = on/off 是否允许cookies;相当于--cookies
connect_timeout = n 设定连接超时时间;相当于--connect-timeout
cut_dirs = n 忽略远程第n层目录成分;相当于--cut-dirs=n
debug = on/off 调试模式;相当于-d
delete_after = on/off 下载后是否删除;相当于--delete-after
dir_prefix = string 设定目录树的最顶级目录名;相当于-P string
dirstruct = on/off 打开/关闭目录结构;相当于-x 或 -nd
dns_cache = on/off 打开/关闭DNS cache;相当于--no-dns-cache
dns_timeout = n 设定DNS超时时间;相当于--dns-timeout
domains = string 相当于-D
dot_bytes = n 进度条使用点时,设定每个点代表的Byte数(默认1024)
dots_in_line = n 进度条使用点时,设定每行的点数(默认50)
/
dot_spacing = n 设定一串中点的个数(默认10)
egd_file = file 设定EGD socket文件名为file;相当于--egd-file=file
exclude_directories =
string
设定不用下载的目录;相当于-X
exclude_domains =
string
相当于--exclude-domains=string
follow_ftp = on/off 是否追踪HTML文件中的FTP链接;相当于--follow-ftp
follow_tags = string 仅追踪指定的HTML标记;相当于--follow-tags=string
force_html = on/off 是否强制将输入文件名的对应文件当成HTML文件(-F)
ftp_password = string 设定FTP密码
ftp_proxy = string 将string当作FTP下载的代理
ftp_user = string 设定FTP用户名
glob = on/off 打开或关闭成团下载;相当于--glob和--no-glob
header = string 为下载的HTTP文件添加头部;相当于--header=string
html_extension = on/off 在text/html或application/xhtml+xml类无后缀名的文件名后添加
“.html”后缀;相当于-E
http_keep_alive = on/off 是否保持HTTP链接活跃;相当于--no-http-keep-alive
http_password = string 设定HTTP下载用的密码;相当于--http-password=string
http_proxy = string 设定HTTP代理
http_user = string 设定HTTP 下载用户名;相当于--http-user=string
ignore_length = on/off 是否忽略Content-Length头部;相当于--ignore-length
ignore_tags = string 递归下载时忽略某些标记;相当于--ignore-tags=string
include_directories =
string
设定下载时追踪的目录;相当于-I string
inet4_only = on/off 强制连接IPv4地址;相当于--inet4-only或-
inet6_only = on/off 强制连接IPv6地址;相当于--inet6-only或-
input = file 从文件中读取URL;相当于-i file
kill_longer = on/off 是否将超出Content-Length头部值的数据当作无效数据
limit_rate = rate 限定下载速率;相当于--limit-rate=rate
load_cookies = file 从文件中加载cookie;相当于--load-cookies file
logfile = file 设定日志文件;相当于-o file
mirror = on/off 打开/关闭镜像功能;相当于-m
netrc = on/off 是否读netrc文件
noclobber = on/off 相当于-nc
no_parent = on/off 是否允许下载当前目录的上层;相当于--no-parent
no_proxy = string 避免某些代理的加载
output_document = file 设定输出文件名;相当于-O file
page_requisites = on/off 是否下载用于完全显示页面的元素;相当于-p
passive_ftp =
on/off/always/never
更改被动FTP的设定;相当于--passive-ftp
password = string 同时设定FTP和HTTP下载的密码
/
post_data = string 用POST方法发送所有HTTP请求,此请求的内容为一个字符串;
相当于--post-data=string
post_file = file 用POST方法发送所有HTTP请求,此请求的内容为一个文件;相
当于--post-file=file
prefer_family =
IPv4/IPv6/none
设定优先考虑的地址族;相当于--prefer-family
private_key = file 设定私钥文件;相当于--private-key=file
private_key_type =
string
设定私钥类型;相当于--private-type=string
progress = string 设定进度条类型;相当于--progress=string
protocol_directories =
on/off
是否用协议名作为目录成分;相当于--protocol-directories
proxy_user = string 设定代理授权用户名;相当于--proxy-user=string
proxy_password = string 设定代理授权密码;相当于--proxy-password=string
quiet = on/off 是否打开安静模式;相当于-q
quota = quota 设定下载限额
random_file = file 在系统无/dev/random的情况下,设定随机数生成目录
read_timeout = n 设定读超时时间;相当于--read-timeout=n
reclevel = n 设定递归下载的深度;相当于-l n
recursive = on/off 打开或关闭递归下载;相当于-r
referer = string 设定HTTP Referer,相当于--referer=string
relative_only = on/off 是否仅追踪相对链接;相当于-L
remove_listing = on/off 是否删除wget 下载过程中生成的 FTP 列表; 相当于
--no-remove-listing
restrict_file_names =
unix/windows
相当于--restrict-file-names
retr_symlinks = on/off 当下在普通页面文件时, 是否获取符号链接; 相当于
--retr-symlinks
retry_connrefused =
on/off
是否将“connection refused” 当作暂时错误; 相当于
--retry-connrefused
robots = on/off 设定是否参考智能机器人的设定,默认是启用
save_cookies = file 将cookies保存到文件中;相当于--save-cookies file
secure_protocol = string 设定使用的安全协议;相当于--secure-protocol=string
server_response = on/off 设定是否打印服务器响应;相当于-S
span_hosts = on/off 是否对主机名进行扩展;相当于-H
strict_comments = on/off 相当于--strict-comments
timeout = n 设定超时时间;相当于-T n
timestamping = on/off 设定是否打开时戳功能;相当于-N
tries = n 设定下载每个URL的最大尝试次数;相当于-t n
use_proxy = on/off 设定是否使用代理;相当于--no-proxy
user = string 同时设定下载HTTP和FTP文件的用户名
verbose = on/off 打开或关闭详细输出结果;相当于-v/-nv
/
wait = n 设定两次下载之间的间隔;相当于-w n
waitretry = n 设定下载尝试失败时等待的时间;相当于--waitretry=n
randomwait = on/off 是否设定请求之间的等待时间为随机数
 

用wget做站点镜像的更多相关文章

  1. 使用wget做站点镜像及wget的高级用法

    本文为大家介绍 使用wget做站点镜像及wget的高级用法,供大家学习参考. # wget -r -p -np -k http://xxx.edu.cn -r 表示递归下载,会下载所有的链接,不过要注 ...

  2. 用flashfxp做ftp镜像同步

    简单说,用flashfxp建立上传或者下载队列,然后设定一个定时任务来处理这个队列,就能同步下载或上传制定的目录了. 本人遇到的需求只需要做同步上传,记录如下: 开发者PC ---> 国内win ...

  3. wget下载站点文件

    非常简单的指令,只需要: wget -c -r -p -k -np [URL] 下面解释下个参数的意义: -c 断点续传 -r 递归下载,可遍历整个站点的结构 -p 网页显示所需要的素材(图片\css ...

  4. RAID 损坏后如何对物理硬盘做完整镜像

    "磁盘阵列是由很多价格较便宜的磁盘,组合成一个容量巨大的磁盘组,利用个别磁盘提供数据所产生加成效果提升整个磁盘系统效能.利用这项技术,将数据切割成许多区段,分别存放在各个硬盘上." ...

  5. php做站点购物车 你搞懂了吗?

    网上购物现已成为时尚,客户选择一个商品将其放入到购物车,然后返回继续购物或者去收银台,这个功能怎样实现呢?今天capucivar就将使用PHP来实现这个购物车的功能. 首先,做一个简单的首页,从数据库 ...

  6. 自己做站点(二) 20块钱搞定一个企业站:域名&amp;空间申请

    域名注冊的话,推荐大家用新网,由于申请费用确实非常低,但续费的价格还是比較高的,所以不妨多申请几年.打开站点: http://www.xinnet.com/ 注冊一个帐号,然后申请域名,你能够看到,费 ...

  7. Jenkins 插件 升级站点 镜像 好用的 2019年11月

    这两天开始学Jenkins 用docker下载了一个镜像运行 , 版本太老了.初始化插件各种报错:版本低/ 更新失败等. dockerhub里面的版本才 2.60 然后又从Jenkins.io 官网上 ...

  8. wget 下载整个网站,或者特定目录

    需要下载某个目录下面的所有文件.命令如下 wget -c -r -np -k -L -p www.xxx.org/pub/path/ 在下载时.有用到外部域名的图片或连接.如果需要同时下载就要用-H参 ...

  9. 强大的wget

    转载自:http://www.cnblogs.com/lidp/archive/2010/03/02/1696447.html 需要下载某个目录下面的所有文件.命令如下 wget -c -r -np ...

随机推荐

  1. LaTeX绘图宏包 Pgfplots package

    Pgfplots package The pgfplots package is a powerful tool, based on tikz, dedicated to create scienti ...

  2. BP反向传播算法的工作原理How the backpropagation algorithm works

    In the last chapter we saw how neural networks can learn their weights and biases using the gradient ...

  3. iOS:转载FMDB文档

    来自会员pengtao的分享:(原文:https://github.com/ccgus/fmdb) 由于FMDB是建立在SQLite的之上的,所以你至少也该把这篇文章从头到尾读一遍.与此同时,把SQL ...

  4. ECShop 2.x 3.0代码执行漏洞分析

    0×00 前言 ECShop是一款B2C独立网店系统,适合企业及个人快速构建个性化网上商店.2.x版本跟3.0版本存在代码执行漏洞. 0×01 漏洞原理 ECShop 没有对 $GLOBAL[‘_SE ...

  5. android:Layout_weight的深刻理解

    最近写Demo,突然发现了Layout_weight这个属性,发现网上有很多关于这个属性的有意思的讨论,可是找了好多资料都没有找到一个能够说的清楚的,于是自己结合网上资料研究了一下,终于迎刃而解,写出 ...

  6. 折叠伸缩工具栏 CollapsingToolbarLayout

    PS:这是一个超级超级垃圾的控件,强烈建议放弃使用! demo地址:https://github.com/baiqiantao/CollapsingDemo.git  一个类似的效果的库,有800个星 ...

  7. Servlet学习笔记(一):生命周期

    一.Servlet 生命周期: Servlet 生命周期可被定义为从创建直到毁灭的整个过程.以下是 Servlet 遵循的过程:初始化——响应请求——终止——回收 Servlet 通过调用 init ...

  8. easyui datagrid 分页保持checkbox选中状态

    刚开始我一直迷迷糊糊的写了很久,发现其实很简单 先给大家看看我的笨办法 var checkedItems = []; function ischeckItem() { for (var i = 0; ...

  9. 转换到 StoryBoard 的公布说明(Converting to Storyboards Release Notes)

    转换到 StoryBoard 的公布说明(Converting to Storyboards Release Notes) 太阳火神的漂亮人生 (http://blog.csdn.net/opengl ...

  10. C++(一)——HelloWorld

    之前学C.学Python,学的比較多的是Java,作为大家口中更强大的C++,要学学,这次的话,以了解主要的特性和做个小游戏作为目标吧. 1)HelloWorld Eclipse执行C++之Launc ...