Beta阶段爬取数目预估】的更多相关文章

预计于12月29号能进行Beta版本发布. Beta阶段我们的爬取动作应该更有针对性,在爬取期间如若数据处理小组有需求,会优先爬取数据处理小组提供的种子链接.预估在项目展示之前能够爬取的数目: 普通网页(不包括问答页):50000,因为数据处理小组表示其他小组的主要需求是问答页和视频链接,所以相应减少普通网页的爬取动作. 问答页:10万以上. 视频:3万.按照在线小组的要求,主要是把channel9上的3W多个视频链接爬取下来即可. PDF:1000. PPT:100. DOC:100. PDF…
1.POI爬取方法说明 1.1AK申请 登录百度账号,在百度地图开发者平台的API控制台申请一个服务端的ak,主要用到的是Place API.检校方式可设置成IP白名单,IP直接设置成了0.0.0.0/0比较方便. Place API 提供的接口用于返回查询某个区域的某类POI数据,且提供单个POI的详情查询服务,用户可以使用C#.C++.Java,Python等开发语言发送请求,接收json.xml的数据.关于Place API的具体使用可以参考:Place API Web服务API 1.2爬…
Beta阶段冲刺五 Task1:团队TSP 团队任务 预估时间 实际时间 完成日期 新增其他学院的爬虫 180 130 11.30 新增其他学院的数据库字段修改 180 160 12.1 新增其他学院的数据库部署到es 180 180 12.2 前端和新增学院数据的交互 300 160 12.2 实现网站的定时爬取以及es的自动同步(绝对路径版) 200 180 11.30 实现网站的定时爬取以及es的自动同步(相对路径版) 60 120 12.1 主界面设置最新通知播报栏样式 300 200…
Beta阶段冲刺四 Task1:团队TSP 团队任务 预估时间 实际时间 完成日期 新增其他学院的爬虫 180 130 11.30 新增其他学院的数据库字段修改 180 160 12.1 新增其他学院的数据库部署到es 180 180 12.2 前端和新增学院数据的交互 300 160 12.2 实现网站的定时爬取以及es的自动同步(绝对路径版) 200 180 11.30 实现网站的定时爬取以及es的自动同步(相对路径版) 60 120 12.1 主界面设置最新通知播报栏样式 300 200…
Beta阶段冲刺三 Task1:团队TSP 团队任务 预估时间 实际时间 完成日期 新增其他学院的爬虫 180 130 11.30 新增其他学院的数据库字段修改 180 160 12.1 新增其他学院的数据库部署到es 180 180 12.2 前端和新增学院数据的交互 300 160 12.2 实现网站的定时爬取以及es的自动同步(绝对路径版) 200 180 11.30 实现网站的定时爬取以及es的自动同步(相对路径版) 60 120 12.1 主界面设置最新通知播报栏样式 300 200…
Beta阶段冲刺前的准备 凡事预则立,在Beta开始前,以小组为单位,在敏捷冲刺前发布一篇博客,描述: 1. 讨论组长是否重选的议题和结论 经过我们小组在周二下午的会议中有重新认真的考虑了是否要更换组长的问题 我们也提出了看法和建议 首先经过前半段的共同努力 我们一致表示我们组的组长秦玉是状态非常好的 无论是从全局的掌握还是具体事件上的安排 她都完成的非常好 也很大程度上提高了我们组的效率 再次 如果换组长的话 这个角色谁来担任更合适 是否在完成度上可以达到更高的层次 使我们组的状态会变得更好…
实验原因: 目前有一个医疗百科检索项目,该项目中对关键词进行检索后,返回的结果很多,可惜结果的排序很不好,影响用户体验.简单来说,搜索出来的所有符合疾病中,有可能是最不常见的疾病是排在第一个的,而最有可能的疾病可能需要翻很多页才能找到. 实验目的: 为了优化对搜索结果的排序,想到了利用百度搜索后有显示搜索到多少词条,利用这个词条数,可以有效的对疾病排名进行一个优化.从一方面看,某一个疾病在百度的搜索词条数目越多,表示这个词条的信息特别丰富,侧面反映了搜索这个词条的人特别多,从而可以推出这个疾病在…
爬取网页中通知标题的内容展示: this is  1  page!<精算学综合>科目考试参考大纲2016年上半年研究生开题报告评议审核结果公示[答辩]2016下半年研究生论文答辩及学位评定工作安排通知[答辩]2016下半年答辩申请者填报研究生综合管理信息系统的通知[资审]2016年下半年同等学力申请硕士学位资格审查工作办理安排2016上半年同等学力人员师生互选结果公示关于2016年硕博连读研究生选拔结果的公示关于研究生院假期值班安排的通知后八周研究生调停课情况统计2016年度(第一批)研究生学…
Beta版测试报告 1. 在测试过程中总共发现了多少Bug?每个类别的Bug分别为多少个? BUG名 修复的BUG 不能重现的BUG 非BUG 没能力修复的BUG 下个版本修复 url乱码 √ 手机端网页的缩放 √ 中文url的编码 √ 根据xpath找不到元素 √ GUI与后端中文无法传递 √ GUI默认辨认编码无法改变 √ 打包无法运行的问题 √ 多线程的信号混乱 √ 无法删除表格中第一项 √ update() 会造成存储结果混乱 √ 打包成单文件EXE无法调用phantomjs.exe √…
下一阶段需要改进完善的功能: 搜索框在Firefox和IE中显示不正常问题 下一阶段新增的功能: ToDoList功能:针对博主的功能,在博主登录之后可以添加和修改待办事项,每个事项包括标题.内容.日期等.对于已完成的事项可以勾选用来确认完成,完成后可以看到事项被划掉. Message功能:针对博主和已经认证的用户.对于博主来说,登录之后可以看到从之前设定的网站爬取的消息(不涉及隐私和版权问题,只是一个消息的列表集合).消息内容包括爬取的时间.标题和链接.在未查看的时候消息呈加粗状态以列表显示,…