Web侦察工具HTTrack (爬取整站)
Web侦察工具HTTrack (爬取整站)
HTTrack介绍
爬取整站的网页,用于离线浏览,减少与目标系统交互,HTTrack是一个免费的(GPL,自由软件)和易于使用的离线浏览器工具。它允许您从Internet上下载万维网站点到本地目录,递归地构建所有目录,从服务器获取HTML,图像和其他文件到您的计算机。HTTrack安排原始网站的相关链接结构。只需在浏览器中打开“镜像”网站的页面,即可从链接到链接浏览网站,就像在线查看网站一样。HTTrack也可以更新现有的镜像站点,并恢复中断的下载。HTTrack完全可配置,并具有集成的帮助系统。
HTTrack使用
1.先创建一个目录,用来保存爬下来的网页和数据
root@kali:~# mkdir dvwa

2.打开Httrack
root@kali:~# httrack

3.给项目命名
Enter project name :dvwa
  
4.保存到哪个目录
Base path (return=/root/websites/) :/root/dvwa
  
5.网站的url
Enter URLs (separated by commas or blank spaces) :http://192.168.14.157/dvwa/
  
6.
Action:
(enter)
1 Mirror Web Site(s)
2 Mirror Web Site(s) with Wizard
3 Just Get Files Indicated
4 Mirror ALL links in URLs (Multiple Mirror)
 5 Test Links In URLs (Bookmark Test)
        0   Quit
:2

//1:直接镜像站点
//2:用向导完成镜像
//3:只get某种特定的文件
//4:镜像在这个url下所有的链接
//5:测试在这个url下的链接
//0:退出
7.是否使用代理

8.你可以定义一些字符,用来爬特定类型的数据,我们全部类型数据都爬得话,设置*

9.设置更多选项,使用help可以看到更多选项,我们默认,直接Enter

10.开始爬站

11.查看结果

Web侦察工具HTTrack (爬取整站)的更多相关文章
- scrapy进阶(CrawlSpider爬虫__爬取整站小说)
		
# -*- coding: utf-8 -*- import scrapy,re from scrapy.linkextractors import LinkExtractor from scrapy ...
 - 使用wget命令爬取整站
		
快速上手(整个bootstrap网页全被你抓取下来了~_~) wget -c -r -npH -k -nv http://www.baidu.com 参数说明 -c:断点续传 -r:递归下载 -np: ...
 - 用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕!
		
众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列.通过分析弹幕,我们可以快速洞察广大观众对于视频 ...
 - 爬虫之爬取B站视频及破解知乎登录方法(进阶)
		
今日内容概要 爬虫思路之破解知乎登录 爬虫思路之破解红薯网小说 爬取b站视频 Xpath选择器 MongoDB数据库 爬取b站视频 """ 爬取大的视频网站资源的时候,一 ...
 - Java爬取B站弹幕 —— Python云图Wordcloud生成弹幕词云
		
一 . Java爬取B站弹幕 弹幕的存储位置 如何通过B站视频AV号找到弹幕对应的xml文件号 首先爬取视频网页,将对应视频网页源码获得 就可以找到该视频的av号aid=8678034 还有弹幕序号, ...
 - Java + golang 爬取B站up主粉丝数
		
自从学习了爬虫,就想在B站爬取点什么数据,最近看到一些个up主涨粉很快,于是对up主的粉丝数量产生了好奇,所以就有了标题~ 首先,我天真的以为通过up主个人空间的地址就能爬到 https://spac ...
 - 爬虫---爬取b站小视频
		
前面通过python爬虫爬取过图片,文字,今天我们一起爬取下b站的小视频,其实呢,测试过程中需要用到视频文件,找了几个网站下载,都需要会员什么的,直接写一篇爬虫爬取视频~~~ 分析b站小视频 1.进入 ...
 - Python 网络爬虫实战:爬取 B站《全职高手》20万条评论数据
		
本周我们的目标是:B站(哔哩哔哩弹幕网 https://www.bilibili.com )视频评论数据. 我们都知道,B站有很多号称“镇站之宝”的视频,拥有着数量极其恐怖的评论和弹幕.所以这次我们的 ...
 - 用python爬取B站在线用户人数
		
最近在自学Python爬虫,所以想练一下手,用python来爬取B站在线人数,应该可以拿来小小分析一下 设计思路 首先查看网页源代码,找到相应的html,然后利用各种工具(BeautifulSoup或 ...
 
随机推荐
- 【Gradle】Gradle环境配置
			
Windows环境 下载 作者下载的是gradle-4.1-all.zip,下载地址:http://services.gradle.org/distributions 环境配置 GRADLE_HOME ...
 - jQuery - 字符串与json对象之间的转换
			
将字符串转换为json 在js中,我们是这样写的 var _data = eval('(' + data + ')'); 原理:eval() 函数可计算某个字符串,并执行其中的的 JavaScript ...
 - Activity四种启动模式与Flag及affinity属性详解
			
Activity有四种加载模式:standard(默认).singleTop.singleTask.singleInstance standard:Activity的默认加载模式,即使某个Activi ...
 - spring-framework-x.x.x.RELEASE-dist下载教程
			
1.打开Spring官网:https://spring.io,点击PROJECTS 2.点击SPRING FRAMEWORK 3.点击GitHub图标 4.找到Access to Binaries,点 ...
 - 北洋UAM-05LX(网口系列适用)ROS节点
			
参考创客智造ROS与激光雷达入门教程 说明: 介绍ROS如何接入Hokuyo网口的雷达及基本使用 测试雷达:UAM-05LX采用太网接口,如果型号是USB口的参考教程 ros wiki: http:/ ...
 - ubuntu 系统关键指令
			
1. 查看系统版本号 cat /etc/issue uname -a cat /proc/version 2. linux 32/64 bit? getconf LONG_BIT 3. dpkg 的命 ...
 - Linux的7个运行级别
			
0:关机 1:单用户(找回丢失密码)此模式下所有用户不需要密码即可登录,可用于重置密码 2:多用户状态没有网络服务 3:多用户状态有网络服务 ★ 4:系统未使用保留给用户 5:图形界面 ★ 6:系统重 ...
 - RabbitMQ运行机制
			
AMQP中消息的路由过程和Java开发者熟悉的JMS存在一些差别,AMQP中增加了Exchange和Binding的角色,生产者把消息发布到Exchange上,Binding决定发布到Exchange ...
 - python中 __name__及__main()__的妙处
			
python中 __name__及__main()__的妙处 #hello.pydef sayHello(): str="hello" print(str); if __name_ ...
 - scn  时间
			
Scn转换成时间: select to_char(scn_to_timestamp(3998591352171),'YYYY-MM-DD HH24:MI:SS') from dual: 时间转换成sc ...