使用wget做网站镜像

Crane posted @ 2010年1月09日 09:04 in Linux with tags linux 网络 Trick , 6917 阅读

记得以前在网上看到一个好网站的时候，因为那时上网时间少，就想着把它整个抓下来，存到自己硬盘上，想什么时候看就什么时候看，那多爽。记忆中那时用的软件就是webzip了，但是这家伙是个共享版，如果你用的不是什么什么特殊版本的话，那么这个家伙是会有限制的，功能上的限制忘了，记得的是好像它会插广告在网页内容里面，这实在是极不爽的一件事。

现在虽然上网的时候多了，要查资料的话也能随时上网查，看到好的站也能随时打个书签收藏（比如好用的用tag管理书签的delicious，书签再多也不怕），免得以后要再来看。但是又发现了这样的问题，比如说我非常喜欢某个家伙的博客，但这个家伙的博客访问比较慢，每开个页面都要等好长时间，我就想把它全部弄到本地来；或者说遇到了这样的情况，看到这样一个网站（地址），就是一本书的html版。于是想把它整个保存到本地来，这样看起来就方便了，不用每次看书都跑到人家网站去，而且这个世界，没准今天网上还找得到的资源下一分钟就没了，所以想把看到的好东西就保存起来。

其实不用webzip这些看起来很强大的软件，我们有一个命令行下的软件，短小精悍，功能强大，工作稳定，它就是wget（一个linux下的软件，不过windows下装cygwin包的话也能使用），放心，不要以为它是命令行的就很挫，它还断点续传呢，这次跑了一半关机了，没关系下次还能接着干活，只要给它个 -c 参数就行了。

要做网站镜像用wget只要3个参数就搞定了，所以就只需要打这样一条命令：

wget -mkL $URL
其中参数意义：
m --mirror 做镜像的意思
k --convert-links 把链接变成适合本地阅读的形式
L --relative只抓取与本网站相关的链接，不会因为出现别的网站的链接而一直追踪抓下去。

$URL 要抓取的网站的地址

这三个都是必要的参数，当然还有其它的参数可以实现相关功能，比如使用－O 指定输出文件名字(默认是网站url命名），网络状况不好的话可以使用 -t NUMBER 或完整形式 --tries=NUMBER，其中NUMBER表示重试次数，0表示无限，这样就不怕网络不好异常中断了。

敲好命令，一回车，就看到wget在努力的干活了，默认是输出详细信息，可以看到每个文件的下载进度。