下面是我们的部分测试报告:

功能测试部分:

1
Exception in thread "Thread-11" java.lang.IllegalArgumentException: Invalid uri 'http://tieba.baidu.com/home/main?un=?????1': Invalid query
at org.apache.commons.httpclient.HttpMethodBase.<init>(HttpMethodBase.java:222)
at org.apache.commons.httpclient.methods.GetMethod.<init>(GetMethod.java:89)
at DownLoadFile.run(DownLoadFile.java:59)
出现页面:贴吧404
2
Exception in thread "Thread-13" java.lang.IllegalArgumentException: Invalid uri 'http://tieba.baidu.com/f/index/forumpark?cn=??????&ci=0&pcn=???&pci=0&ct=1&rn=20&pn=1': Invalid query
at org.apache.commons.httpclient.HttpMethodBase.<init>(HttpMethodBase.java:222)
at org.apache.commons.httpclient.methods.GetMethod.<init>(GetMethod.java:89)
at DownLoadFile.run(DownLoadFile.java:59)
出现页面:?????贴吧

上面几个都是因为url网址里面的字符无法识别导致的

3 测试了爬取若干页面所需时间:

网址:http://ask.csdn.net
爬取页面数:100
远航所有时间:22898(毫秒,下面的数字都用毫秒计算)
newbe所用时间:24318
cpu占有率:34.3%-44.7%
所占内存:161.6MB
爬取页面数:1000
远航所用时间:596204
newbe所用时间:855707
cpu占有率:29.6%-43.8%
所占内存:199.1-228.6MB
极限情况:
尝试爬取10000个页面,但是由于爬取速度随着爬取页面数的增加明显减慢,导致爬取过程缓慢,而且中途总是出现异常,最终最高达到4571个页面,时间:8378920(毫秒),花费了2小时以上,感觉这种极限极限测下去意义不是很大,所以就停止了。爬虫速度越爬越慢感觉非常明显,而且测试的时候偶然性很大,和电脑运行时的情况也有很大关系,而且本人测试的时候爬取失败率有点高,失败率达到了惊人的20-%-30%,感觉这方面是不是可以改进下,而且newbe爬虫速度也比远航的略慢。

下一步要开始测多个网址的情况和关键字搜索的情况。希望在下次测试结果之前能够把由于网页字符不能识别导致的bug解决掉。

UI测试:

1.对现有UI各个BUTTON的功能测试
所有按钮功能正常,没有问题。

2.对现有UI的布局的建议、改善方案与理由(尤其在细节方面)

a.首先是单词错误,how much pages 改为how many pages

b.how to use 按钮的位置不合理,目前是处于how much pages后面,逻辑性不强。改善建议是将其放在整个界面的顶部,并且将其长度拉长,使用户第一眼看到的的就是我们的how to use

c.or you can select the file按钮应放在第二模块的位置,即放在URL seed 下面,同时改名为or select the URL file(txt)。改动理由是这个模块与URL seed模块功能是一致的,同时其名字也应直接显示其功能

d.应统一所有按钮说明的单词写法,全部改为每个单词首字母大写。URL seed-> URL Seed,keyword->Keyword,how many pages->How Many Pages等

3.对使用说明文档的重新编写,要求文档简洁、清晰,方便用户

本爬虫软件是由newbe软件工程队在远航1617软件工程队的爬虫软件基础上进行改写开发而成的。
使用方法:
1.输入网址:在URL Seed中输入爬取的网址,可以输入多个网址(缺省为百度搜索);或者选择yes按钮后用Select File按钮选择包含多个URL地址的txt文件
2.输入关键词:在Keyword中输入即可(缺省为通常爬取)
3.输入爬取数:在How Many Pages中输入即可(不可缺省)
4.选择页面保存地址:通过Save Path选项后的select即可,还可以通过open按钮打开目录
5.爬取:点击Start按钮;爬取开始后可以暂停Pause和继续Continue
6.分析:点击Analyze按钮
7.关闭:点击Close按钮
PS:
1.运行本爬虫软件需要连接指定服务器,服务器不是全天开启的,不连接服务器本软件无法正确运行。
2.本爬虫软件具有关键字搜索功能,并且可以展示爬取过程。
3.Keyword关键字搜索,可以通过输入关键字对爬取的网页进行过滤处理,只爬取带有关键字的网页(并进行排序,得到根据热度排列的相对最优结果);
4.由于爬取速度有限,建议爬取网页的数量不要输入太多。
5.当爬取成功网页数达到How Many Pages中输入的网页数量时,爬取过程将会停止。
6.analyze中的饼状图是对服务器中存有的所有网页进行分类分析;条形图是本次爬取中根据热度排列的结果。

4.对已产生的图表的建议与测试
测试正常,全部实现了既定功能;显示清晰,标示了所有的情况。

下面是今天的燃尽图:

Daily Scrum 11.19 部分测试报告的更多相关文章

  1. [ASE][Daily Scrum]11.19

    Sprint2已经开始了~今天晚上有课所以今天的plan比较少~ View Shilin Liu 能够看见其他玩家发射出来的子弹 能够看见其他玩家的子弹消失         Client Jiafan ...

  2. Daily Scrum - 11/19

    今天任烁帮忙更新了大家在Sprint 2中的Task,基本每人的Task都是细分到每天的,这样大家初期的工作应该会更有效率一点. 任烁今天表示“进度条背词法”应该是可以融合到原有算法中的,期待他的改进 ...

  3. Daily Scrum 11.01

    全队进展速度很快,11月伊始都完成了初步的工作.交由负责整合工作的毛宇开始调试整合. Member Today's task  Tomorrow's task 李孟 task 616 测试 (活动) ...

  4. Daily Scrum - 11/25

    今天是Sprint 2的最后一天,我们在下午的课上对之前两个Sprint作了比较详尽的Review,并在课后Daily Scrum上讨论制订了Sprint 3的任务安排.具体Task会在明天更新在TF ...

  5. Daily Scrum - 11/23

    今天更新blog时发现了老师对我们daily scrum提的要求,从明天起除了简要记录组会的主要内容之外,还会总结上一个工作日每个组员的工作进度.代码提交情况和燃尽图. 今天会议内容主要是人千.章玮同 ...

  6. Daily Scrum - 11/20

    好习惯的养成需要两个星期. ——砖家 今天我们小组又进行了一次愉快的例会,可以看到daily scrum在我们小组已经逐渐变成了每日的好习惯.首先对以下一些团队routine达成了共识: 1.spri ...

  7. Sprint 1 Review & Daily Scrum - 11/18

    今天我们组利用课后的时间对Sprint 1阶段进行了回顾,并对接下来的工作进行了安排. Sprint 1阶段我们开始定的计划是完成最基础的背单词功能,可以让用户可以完整地走一遍背单词流程.回顾上周,我 ...

  8. Daily Scrum 11.2

    由于11月1号是周六,小组里人不是很齐,所以Scrum会议暂停一次. 周日大家的工作都已经进入到尾声了,但是由于人员方面出现一些问题,界面方面做的还不到位.鉴于我们还只是完成了一个比较简单的工作,与真 ...

  9. Daily Scrum 12.19

    Member Task on 12.19 Task on 12.20 仇栋民 请假 完成Task972 : 完成活动评分基础功能 康家华 完成 Task1004 : 百度map UI优化 完成Task ...

随机推荐

  1. JS判断指定dom元素是否在屏幕内的方法实例

    前言 刷网页的时候,有时会遇到这样一个情景,当某个dom元素滚到可见区域时,或者图片的懒加载效果,它就会展现显示动画,十分有趣.那么这是如何实现的呢? 实现原理 想要实现这个功能,就要知道具体的实现原 ...

  2. 1548: Design road (思维题 做法:三分找极值)

    1548: Design road Submit Page    Summary    Time Limit: 2 Sec     Memory Limit: 256 Mb     Submitted ...

  3. 学习笔记——OS——引论

    学习笔记--OS--引论 操作系统的定义 操作系统是一组管理计算机硬件资源的软件集合: 用户和计算机硬件之间的接口 控制和管理硬件资源 实现对计算机资源的抽象 计算机系统硬件 冯诺依曼体系结构和哈佛结 ...

  4. ORM增删改查(django)

    单表操作: 一.添加 (1)方式一 from  mysite.models  import * def  add(request): book= Book(name="python" ...

  5. linux-RPM 打包原理 SPEC 编写规范

    一.编写spec脚本 由前面的日志了解到,生成rpm除了源码外,最重要的就是懂得编写.spec脚本.rpm建包的原理其实并不复杂,可以理解为按照标准的格式整理一些信息,包括:软件基础信息,以及安装.卸 ...

  6. JavaWeb总结(三)

    什么是Servelt - 是运行在Web服务器或应用服务器上的Java程序 - 在Web上创建动态内容的有效而强大的解决方案 - 由容器来管理生命周期与Web服务器交互 Servlet规范的组成 Ja ...

  7. 2-[Mysql]- 初识sql语句

    1.统一字符编码  强调:配置文件中的注释可以有中文,但是配置项中不能出现中文 mysql> \s # 查看字符编码 # 1.在mysql的解压目录下,新建my.ini,然后配置 #mysql5 ...

  8. 【LG3248】[HNOI2016]树

    [LG3248][HNOI2016]树 题面 洛谷 题解 因为每次你加入的点是原树上某一棵子树 那么我们一次加入一个点,代表一棵子树加到大树下面 那么我们要找到一个点在一个大点中用主席树在\(dfs\ ...

  9. linux中mycat的配置,分片,以及主从复制

    1.1    安装环境 1.jdk:要求jdk必须是1.7及以上版本 2.Mysql:推荐mysql是5.5以上版本 1.2  安装步骤 Mycat有windows.linux多种版本.本教程为lin ...

  10. Java 原生日志 java.util.logging

    简介 Java 中的 Logging API 让 Java 应用可以记录不同级别的信息,它在debug过程中非常有用,如果系统因为各种各样的原因而崩溃,崩溃原因可以在日志中清晰地追溯,下面让我们来看看 ...