更为详细的测试报告,我们会在后续整理出来。

  在M1的基础上,我们新增加了两个个数据表来存放问答对以及标签信息的表:C705question表 与 tag表  

  第二次迭代中,我们积极地同第三组沟通,了解到他们需要实现的核心功能需要我们为他们提供一个新的数据库,这个数据库存放了问答网站的地址以及问题的相关信息。因此我们筛选了六个常用的问答网站(百度知道,搜搜问问,德问,stackoverflow,cnblog,),向第一组提出了尽量爬取这六个网站的需求,我们在这一阶段要做的就是将网站中的有效信息提取出来存入数据库提供给下一组使用。

具体的实现是:

  我们分别查看了这六个网站的网页结构,用多个例子确定了每个网站的网页结构,我们发现,我们需要提取的标签、摘要等信息,都固定地存放在html的某个标签中,因此,我们用正则表达式去匹配了这样的标签,将信息提取出来。需要特别指出的是对于特殊情况的处理:比如近期的问题通常会显示“三小时前提出”这样的信息,这和我们需要提取的标准格式的时间不符合,考虑到问题的时间是对准确度要求不那么高的数据,我们粗略地按当前的系统时间存入数据库。

如下图所示,我们把每个网站分解成以下几个部分:

  问题的网址、问题的标题、问题的内容、提出问题的时间、答案的数量、问题的id、标签的id。当一个网站处理完后,我们将这一组信息插入到数据库。另外,基于第三组的要求,为了避免对汉字的重复存储,我们新建了一张tagId和tag内容的一对一的表,当我们读到一个tag的时候,就在这张表里面找它的id,找到的话就用这个id,没有找到就新建一个id再用。

C705question表:保存了问答对信息

title:问题的标题

abstract:问题的内容

link:问题的网址

created:提出问题的时间

answer:回答数量

qid:问题的编号

tid:与之对应的标签编号

tag表:包含标签编号与相应的标签名字(该数据结构满足UI组的要求)

测试环境:

数据库服务器配置(本机测试)

机器名(IP)

CPU

内存

软件环境(操作系统、应用软件)

219.224.191.25

2.40GHz

8.00GB

Windows server 2008 R2 Standard

应用服务器配置(本机测试)

机器名(IP)

CPU

内存

软件环境(操作系统、应用软件)

219.224.191.25

2.40GHz

8.00GB

Windows server 2008 R2 Standard

其他说明

         

M2项目测试的更多相关文章

  1. 【Alpha版本】项目测试

    我说的都队 031402304 陈燊 031402342 许玲玲 031402337 胡心颖 03140241 王婷婷 031402203 陈齐民 031402209 黄伟炜 031402233 郑扬 ...

  2. [2017BUAA软工助教]个人项目测试结果

    个人项目测试结果 标签(空格分隔): 未分类 9.29第一次测试结果 注:点击表头内相应项目可针对该项目进行排序 -c测试结果 INDEX NumberID -c 1 -c 5 -c 100 -c 5 ...

  3. Java-Maven-Runoob:Maven 构建 & 项目测试

    ylbtech-Java-Maven-Runoob:Maven 构建 & 项目测试 1.返回顶部 1. Maven 构建 & 项目测试 在上一章节中我们学会了如何使用 Maven 创建 ...

  4. Alpha项目测试

    这个作业属于哪个课程 https://edu.cnblogs.com/campus/xnsy/SoftwareEngineeringClass1/homework/3338 这个作业要求在哪里 htt ...

  5. 个人作业Alpha项目测试

    这个作业属于哪个课程 软件工程原理 这个作业要求在哪里 作业要求 团队名称 TEAMPANTHER 这个作业的目标 每个同学必须选取非自己所在团队的3个项目进行测试. 在你所测试的项目的Alpha发布 ...

  6. 来自一个用户的体验-Alpha项目测试

    软件梦之队成员:201731062305 周蓉 这个作业属于哪个课程 <课程的链接> 这个作业要求在哪里 <作业要求的链接> 团队名称 <软件梦之队>(附上团队博客 ...

  7. java项目测试环境搭建

    java项目测试环境搭建 2019-03-06 13:45:26 木瓜小少年 阅读数 691更多 分类专栏: 测试   版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原 ...

  8. Alpha项目测试--个人第五次博客

    第五次个人博客--测试 这个作业属于哪个课程 系统分析与设计 这个作业的要求在哪里 Alpha项目测试 团队名称 西柚排课王 这个作业的目标 测试别人的项目,从客观的角度体验项目 一.测试项目一 团队 ...

  9. 第五次个人作业- Alpha项目测试

    这个作业属于哪个课程 课程链接 这个作业要求在哪里 作业要求链接 团队名称 西柚排课王 测试人姓名 刘洋 测试人学号 201731062314 一.测试项目 测试项目 团队名 第二次Alpha发布博客 ...

随机推荐

  1. Beta阶段总结博客(麻瓜制造者)

    Beta冲刺过程中各个成员的贡献百分比: 成员 贡献值 邓弘立 15% 符天愉 14% 江郑 14% 刘双玉 14% 肖小强 13% 李佳铭 11% 汪志彬 11% 伍杰麟 8% 项目的发布说明 本版 ...

  2. 如何使用 eclipse进行断点 debug 程序

    先给出一段程序,然后通过使用 eclipse 设置断点进行一步步操作看结果 package cn.debug.com; public class Demo18 { public static void ...

  3. python五十九课——正则表达式的拓展内容

    演示正则表达式的拓展内容:函数:finditer(regex,string,[flags=0]):参数:和match.search.findall一样理解功能:将所有匹配的数据封装为一个一个的matc ...

  4. Component name与package name/class name的关系?

    谢谢,那就是component name是package name + activity name?那class name呢?是.java中定义的class MyClass ???

  5. linked-list-cycle-ii (数学证明)

    题意:略. 这个题最关键的点在于后面,如何找到循环开始的节点. 第一阶段,先用快慢指针找到相遇的节点C.(至于为什么,了解一下欧几里德拓展解决二元不定方程.)A是表头.B是开始循环的位置. 第一次阶段 ...

  6. HDU - 4336 (容斥)

    题意:给你n个奖,每个机会只能中一个奖,中奖的概率分别是{p1,p2,p3......pn}:并且这些奖是两两没有交集.(pi*pj=0)问,需要多少次才能把所有奖都中完的期望值. 先来分析:中所有奖 ...

  7. Google的Flutter工具允许开发者开发跨平台应用

    与大多数应用程序开发人员交谈,他们会告诉你,与iOS相比,制作Android应用程序要困难得多,也更复杂,也不那么有趣.实际上,如果你要求报价,这两种软件都将单独定价,因为它们都需要单独的开发时间和团 ...

  8. AI 线性回归

    线性回归(Linear Regression),顾名思义,输出是输入的线性函数.因为通常会附加偏置(bias)参数,所以实际是仿射函数. 参考链接: http://cs229.stanford.edu ...

  9. MySQL 基础三 函数(聚合、字符串、时间、条件判断)

    1.聚合 其它:GROUP_CONCAT.avg.sum.count.max.min SELECT typeid,GROUP_CONCAT(goodsname) FROM `goods` GROUP ...

  10. TerraGate SFS 4.5 版本 发布矢量数据使用的Cache数据如何再返回成shapefile文件

    TerraGate SFS 4.5 版本 发布矢量数据使用的Cache数据如何再返回成shapefile文件? 两年前帮一个朋友解决过这个问题: 如果原来用4.5版本的时候,在网络环境下,为了提升调用 ...