Crawling is going on - Alpha版本使用说明
[Crawling is going on - Alpha版本]
使 用 说 明
|
北京航空航天大学计算机学院 远航1617 小组 |
产品版本: Alpha版本 |
|
产品名称:Crawling is going on |
共 7 页 |
文 档 作 者: ______杨帆______
说 明 书 校 对:_____林谋武______
项 目 审 核: _____刘昊岩______
1.引言
1.1 编写目的
编写本使用说明的目的是充分叙述本软件所能实现的功能及其运行环境,以便使用者了解本软件的使用范围和使用方法,并为软件的维护和更新提供必要的信息。
1.2 参考资料
|
资料名称 |
作者 |
|
自己动手写网络爬虫 |
罗刚 |
|
Web数据挖掘 |
(Soumen Chakrabarti)查凯莱巴蒂 |
|
软件测试 |
肖汉 |
|
精通SQL Server 2008完全自学手册 |
金玉明 |
1.3 术语和缩写词
|
缩略语 |
全意 |
|
爬虫 |
一种自动获取网页内容的程序,是搜索引擎的重要组成部分 |
|
URL |
中文名称为“统一资源定位符”,是互联网上标准资源的地址 |
|
过滤 |
去除网页中不符合需求的内容,例如广告等 |
|
线程 |
爬虫程序运行时的程序调度单位 |
2.软件概述
2.1 软件用途
本软件用于自动获取网页内容,同时具有去广告,分类保存扒取到的文件,网页质量判定等功能。是网上问答系统等搜索引擎的重要组成部分。
2.2 软件运行
本软件运行在PC 及其兼容机上,使用WINDOWS 操作系统,需要eclipse开发环境。软件安装完成后,打开eclipse,导入软件所在路径,打开工程。运行工程下default package包中的MyCrawler.java文件,出现软件主界面。
2.3 系统配置
本软件运行在PC 及其兼容机上,使用WINDOWS 操作系统 ,要求奔腾4以上CPU,512兆以上内存,10G 以上硬盘。软件需要有eclipse开发环境。
2.4 软件结构

2.5 软件性能
功能测试用例通过率达到94%。爬取的网页达到10^2数量级时,平均用时不超过1.5分钟。
CPU占用率如下表:
|
序号 |
爬取数 |
CPU占用率 (%) |
内存占用率(KB) |
|
1 |
10 |
2.24 |
189400 |
|
2 |
100 |
9.39 |
170552 |
|
3 |
1000 |
27.44 |
164344 |
可靠性,安全性,易用性均经过测试并达到测试要求。
2.6 输入、处理、输出
2.6.1 输入
1) 网络爬取过程开始的源网址。
2) 预期抓取的网页数量。
2.6.2 处理
程序将从源网址(输入1)开始依次爬取下一级链接,爬取到预期爬取网页数量后(输入2)停止爬取。
点击start键开始爬取。
点击close键关闭软件。
2.6.3 输出
1) 已爬取的URL数;
2) 当前爬取URL;
3) 爬取进度;
4) 爬取状态;
5) 爬取的URL;
6) 本地File目录下爬取结果下载的文件内容,包含html等文件。
7) 数据库中保存文件的绝对路径、文件的下载地址及对应URL的网页编码与类型、对当前文件的下载时间、更新时间集、以及最后一次操作时间等信息。
3.软件使用过程
3.1 软件安装
将软件压缩包中的全部文件解压到本地即可。
3.2 运行说明
本软件需运行在WINDOWS操作系统下,并需要安装eclipse开发环境和最新版本的JRE。
配置数据库到Windows(或Windows server)数据源中,数据库名为yuanhang。数据库中包括:被抓取网页的类型、编码等信息;文件下载后在本地的存储路径;文件的下载时间记录、更新时间记录、最后一次更新记录。
软件安装完成后,打开eclipse,导入软件所在路径,打开工程。运行工程下default package包中的MyCrawler.java文件,出现软件主界面。
3.3 控制输入
运行软件出现主界面后,在主界面的URL seed中输入源网址,在主界面how much pages中输入想要抓取的网页数量,点击“start”按钮开始爬取。
3.4 输出文件
在本地File路径下为爬取结果下载的文件内容,包含html等文件。
在数据库中保存本地文件的绝对路径、文件的下载地址及对应URL的网页编码与类型、对当前文件的下载时间、更新时间集、以及最后一次操作时间等信息。
3.5 输出报告
在主界面中会显示已爬取的URL数、当前爬取URL、爬取进度、爬取状态、爬取的全部URL。
3.6 非常规过程
如果出现不可能处理的问题,可以直接与远航1617 小组的技术支持人员联系团队博客:http://www.cnblogs.com/yuanhang1617。
4.软件维护过程
4.1 程序设计的约定
本软件程序是一个单一的运行软件,各个软件子模块的预定如下:

4.2 源程序清单
本软件源程序全部位于default package包中,共包括9个文件:
ConnectServer.java
CraUi.java
DownLoadFile.java
HtmlParserTool.java
LinkFilter.java
LinkQueue.java
MyCrawler.java
Queue.java
Url.java
Crawling is going on - Alpha版本使用说明的更多相关文章
- Crawling is going on - Alpha版本测试报告
[Crawling is going on - Alpha版本] 测 试 报 告 文件状态: [] 草稿 [√] 正式发布 [] 正在修改 报告编号: 当前版本: 1.0.2 编写人: 周萱.林谋武. ...
- DB天气 Alpha版使用说明
一 产品介绍 DB天气是一款能够准确预报天气的软件,它的特点在于它的简洁的设计风格,以及贴心的预报方式.是一款非主流的小清新的天气APP. 二 功能介绍 下面介绍一下DB天气的主界面以及天气功能的实现 ...
- Alpha版使用说明
1引言 1 .1编写目的 针对我们发布的alpha版本做出安装和使用说明,使参与内测的人员及用户了解软件的使用方法和相关内容. 1 .2参考资料 <javaWeb程序设计基础><di ...
- "感应锁屏"Alpha版使用说明
“感应锁屏”Alpha版使用说明 一.产品介绍 感应锁屏是锁屏软件的一大创新.相比传统的锁屏软件,“感应锁屏”从可操作性.方便性.功能全面性都有了很大的提升,可以让用户方便快捷的进行锁屏操作. “感应 ...
- Pipeline组Alpha版本发布说明
Pipeline组Alpha版本发布说明 项目名称 Pipeline 项目版本 Alpha版本 负责人 北京航空航天大学计算机学院 ILoveSE 联系方式 http://www.cnblogs.co ...
- 猿族崛起-Alpha版本发布2
标准开头 Q A 这个作业属于哪个课程 课程链接 这个作业要求在哪里 要求 团队名称 猿族崛起 这个作业的目标 完成alpha版本未完成的功能,并进行拓展 Sname Sno 向宏力 20173106 ...
- 第五次团队作业——第一次项目冲刺——Alpha版本
Deadline:2016-11-19 8:00am 本次团队作业将持续三周时间,完成项目Alpha版本,在2016.11.19 的实践课上进行演示操作. 阅读或再次阅读<构建之法> ...
- 第五次团队作业——【Alpha版本】随笔汇总
031402304 陈燊 031402342 许玲玲 031402337 胡心颖 03140241 王婷婷 031402203 陈齐民 031402209 黄伟炜 031402233 郑扬涛 [Alp ...
- 【Alpha版本】冲刺随笔汇总
[Alpha版本]冲刺-Day1 [Alpha版本]冲刺-Day2 [Alpha版本]冲刺-Day3 [Alpha版本]冲刺-Day4 [Alpha版本]冲刺-Day5 [Alpha版本]冲刺-Day ...
随机推荐
- svn不能提交 svn: is out of date; try updating
今天做项目合并的时候突然不能提交了,开始以为是和服务器的有修改冲突,然后更新一下发现还是不能提交,每次都报is out of date;还原文件 -> 修改 -> 提交 -> 仍然报 ...
- [视频]ARM告诉你物联网怎么玩,mbed 6LoWPan demo
该视频演示了基于arm mbed的物联网设备间的6LoWPAN应用,如连接家里的土壤湿度传感器,灯光控制,安防联动等应用. 演示视频 原创文章,转载请注明: 转载自 http://www. ...
- 【PHP】金额数字转换成大写形式
<?php /*将数字金额转成大写*/ function num_to_upper($num) { $d = array('零','壹','贰','叁','肆','伍','陆','柒','捌', ...
- 使用userdel命令删除Linux用户
serdel是什么 userdel 是一个底层用于删除用户的工具.在 Debian 上,我们通常会使用 deluser 命令.userdel 会查询系统账户文件,例如 /etc/password 和 ...
- Nginx 403 forbidden的解决办法
Nginx 403 forbidden的解决办法. 常见的,引起nginx 403 forbidden有二种原因,一是缺少索引文件,二权限问题. 1.缺少index.html或者index.php文件 ...
- Head First-策略模式
策略模式,什么是策略模式,定义了算法族,分别封装起来,让他们之间可以相互替换,此模式让算法的变化独立于使用算法的客户. 下面我们就用鸭子来诠释一下策略模式,鸭子有两种行为呱呱叫和飞,但是并不是所有的鸭 ...
- a标签至于flash之上的时候,IE浏览器无法点击连接的问题
<a style="display: block;height: 131px;position: absolute;z-index: 999;width: 222px;backgrou ...
- Ueditor图片缩放的设置
最近在用Ueditor,功能绝逼强大,不过也有遗憾的地方,上传图片的时候自动缩放的小了,想要图片按宽度整体等比缩放,找了好久,研究了下,终于找到解决方法了. 先改前台的的dialogs/image/i ...
- java作用域public ,private ,protected 及不写时的区别(转)
在说明这四个关键字之前,我想就class之间的关系做一个简单的定 义,对于继承自己的class,base class可以认为他们都是自己的子 女,而对于和自己一个目录下的classes,认为都是自己的 ...
- Keil(MDK-ARM)使用教程(三)_在线调试
Ⅰ.概述 该文章总结Keil(MDK-ARM)在线调试相关的内容,详情请往下看. 该文章是基于新建好软件工程来讲述,关于Keil的下载.安装和新建工程我已将在前面做了详细的总结,不懂的可以参看我博客里 ...