WinHTTrack Website Copier使用说明

WinHTTrack Website Copier可以抓取整个网站或者某个网页、某个论坛帖子。以抓取论坛某个主题帖子为例:

1、打开WinHTTrack Website Copier,下一步

2、工程名可以以帖子标题命名,最好用英文,分类随意,保存路径建议非C盘。

3、我们要下载若干个帖子,所以操作选择下载个别文件,web地址可以逐个输入,也可以用list列表,列表以回车键分开,对于有规律的帖子,可以在excel中拖动快速形成。

http://bbs.tianya.cn/post-399-70857-1.shtml

http://bbs.tianya.cn/post-399-70857-2.shtml

http://bbs.tianya.cn/post-399-70857-3.shtml

4、选项,最大深度选择1,最大外部链接深度选择0这样我们只搜索当前帖子或页面所在的网址内容,不要外链到其他网站,所以选择0.这两个选项很重要。

5、链接我选择了试图捕获所有的URLs,保存所有指向非HTML文件的链接,例如外部的zip文件或图片文件,首先保存HTML文件,取默认也行,没看出多少区别。

6、构造取默认值即可。

7、搜寻页面取默认值。

8、浏览器标致取默认值。

9、确定后直接开始。

 10、特别要注意的是,新建一个工程要重新命名,否则会覆盖原来的地址!

WinHTTrack Website Copier比Offline Explorer Portable(离线浏览器工具)的好处是抓取的文件很精准,没有多余的外链和文件,而且文件都是压缩之后存储的,占用空间较小,而且文件数量很小。而Offline Explorer Portable搜索深度设置为1的时候,会搜索本站点的外链,这不是我想要的,但是设置搜索深度为0的话,又会出现附件没有被下载的问题。

缺点是同一个站点的文件不能共用,需要再次下载,如果把列表放在一起下载,以前下载的又会被覆盖,而Offline Explorer Portable会更新以前下载的目录,它是以站点为单位进行下载的,网站有更新直接刷新下就好了。

WinHTTrack Website Copier还有个缺点是网址不支持变量,对于有规律的网址,需要借助excel生成。而Offline Explorer Portable有网址宏功能,可以自定义网址的起始页,例如page=:{1..4}代表1~4页。

WinHTTrack Website Copier和Offline Explorer Portable都可以下载论坛的附件(包括zip和jpg等类型的图片附件),但是论坛的图片不一定能正确抓取,网页内嵌的图片可以正常抓取,原因有待探索。

2018年10月9日

WinHTTrack Website Copier使用说明的更多相关文章

  1. 网站整站下载工具—HTTrack Website Copier

    HTTrack是一个免费和易用的离线浏览工具(浏览器),它可以允许你下载整个WWW网站至本地目录,并且通过遍历网站目录获取HTML,图片和其他文件,是安全渗透测试和居家旅行必备软件. WinHTTra ...

  2. HTTrack Website Copier 扫描规则

    +*.css +*.js -ad.doubleclick.net/* -mime:application/foobar+*.gif +*.jpg +*.jpeg +*.png +*.tif +*.bm ...

  3. 扒网站工具 HTTrack Website Copier

    下载地址:http://www.pc6.com/softview/SoftView_30936.html 作者:匿名用户 链接:https://www.zhihu.com/question/34188 ...

  4. 网站收集ing....

    1.账号注册网址 http://bugmenot.com/ PS:只要输入相关网站域名就能立即完成网站注册 2.博客网站 CSDN,博客园,开源中国 3.破解网站 吾爱破解 4.矢量图标 http:/ ...

  5. httrack,webdup,WinHTTrack,WebZip

    怎么下载摄像头游戏jabbo,并使其能离线运行?修改 1.摄像头游戏jabbo:JABBO Ultimatum by LiveMurals Interactive电脑为:windows 7 32位.试 ...

  6. 使用wget命令爬取整站

    快速上手(整个bootstrap网页全被你抓取下来了~_~) wget -c -r -npH -k -nv http://www.baidu.com 参数说明 -c:断点续传 -r:递归下载 -np: ...

  7. 小白学习安全测试(二)——httrack的安装和使用

    httrack是一款免费的网站镜像程序,简单理解就是可以在网站结构(网页及一些主要信息文件),下载到本地,可离线浏览,我是按照搭建成功后的console直译过来的 下面说下安装: 我都是在Linux环 ...

  8. [转]Httrack工具与使用指南

    HTTrack工具介绍 HTTrack是一个网站镜像工具,本来是用来抓取网站做离线浏览用的.但是HTTrack的爬虫特性和搜索引擎蜘蛛爬虫非常的像,这也逐渐应用到 SEO(搜索引擎优化)工作中.其实这 ...

  9. 网站下载器WebZip、Httrack及AWWWB.COM网站克隆器

     动机 闲扯节点,可略读. 下载并试用这些软件并非是为了一己之私,模仿他人网站以图利.鉴于国内网络环境之艰苦,我等屌丝级半罐水程序员,纵有百度如诸葛大神万般协力相助,也似后主般无能不能解决工作和娱乐中 ...

随机推荐

  1. c++ 第二章知识梳理

    2.1.c++语言概括 2.1.1)c++的产生 一个更好的c,由c演变而来 2.1.2)c++的特点 一是尽量兼容c,二是支持面向对象的方法.更安全,且简洁高效. 2.1.3~2.1.5 多数和C相 ...

  2. 浅谈ES6新增数据类型:Symbol

    面试中喜闻乐见的问题就是问我们的ES6新增了哪些个新特性 这篇文章一起学习一下新增的数据类型:Symbol JS的原始数据类型:6种Boolean,String,Undefined,NULL,Numb ...

  3. 3D数学基础(三)矩阵

    3D引擎中对于矩阵的使用非常多,介绍这些知识也是为了告诉开发者原理,更有助于开发者编写逻辑. (1)固定流水线 各种坐标系之间的转化是通过矩阵相乘得到的,这里面就涉及到了3D固定流水线.作为3D游戏开 ...

  4. SQL设置时间格式

    SELECT STR_TO_DATE('Jul 20 2013 7:49:14:610AM','%b %d %Y %h:%i:%s:%f%p') from DUAL; -- 执行后得到结果:'2013 ...

  5. vue.js 视频教程

    0.1智能社vuejs(1-11章全套) 0.2英文版learing vuejs 0.3Vue.js实战小米阅读开发 0.4走进Vue.js2.0 0.5Vuejs教程45节课 0.6Vue.js+N ...

  6. gulp在项目中的基本使用

    在项目中用gulp做项目的代码的管理,用起来很方便.主要用到了下面一些功能 关于js的处理,包括合并.压缩.加hash. 关于css的处理,编辑scss,合并css,加hash,自动加入前缀 本地开发 ...

  7. Java并发编程75道面试题及答案

    1.在java中守护线程和本地线程区别? java中的线程分为两种:守护线程(Daemon)和用户线程(User). 任何线程都可以设置为守护线程和用户线程,通过方法Thread.setDaemon( ...

  8. js作用域和内存

    对于一本编程语言来讲,个人认为,最基本的就是存储,在存储,读取,计算值的时候是按照一定的规则来操作,这套规则呢就叫做作用域. 值保存,读取,的时候需要一个范围,如果以按照函数为单位的话就做函数作用域, ...

  9. OnTriggerEnter2D方法

    我两个物体A,B都添加了Circle Collider 2D,并且都勾选了is Trigger,我在A的脚本里用void OnTriggerEnter2D(Collider2D coll)检测碰撞,至 ...

  10. hdu 2824 欧拉函数 O(nlogn) 和O(n)

    裸题 O(nlogn): #include <cstdio> #include <iostream> #include <algorithm> using name ...