SCRUM 12.21
从爬虫遇到的问题中我们学会了:
1.有的网站是有反爬虫机制的,外卖网站(我们猜测基本所有盈利性质的网站可能都是)全部都有。
2.我们对于反爬虫机制有了一定的了解。
本次爬虫测试中,我们最后连美团网站都无法打开,显然是美团对于爬虫做出了回应,这个回应会是什么呢?应该并非IP封锁,因为平时大家都要用,如果是IP被封的话应该不仅仅是我们的组员无法连接到美团网站。
我们上网查找了一些可能性。根据http://blog.csdn.net/leoleocmm/article/details/17391105这篇博客中所说,可能是爬虫的User Agent被识别后拒绝了。“统计每天的production.log,抽取User-Agent信息,找出访问量最大的那些User-Agent”,这是原博文中的一句话,我们猜测或许美团采取的就是这种,因为最初我们能够爬下有限的一些网页。可能美团统计的周期比较短所以发现的比较快。
如果再让我们尝试一次,或许我们也不是很有办法做出能够很好应对这个问题的方案,毕竟我们的技术水平有限,而且资本不足。但是,我们可以做出一些可能有较小效果的改变:
比如,我们可以每天爬取一小部分数据,这样的话应该不会产生很大的访问量,但是效率可能非常低。就像当初俄罗斯的黑客们通过几kb/s的速度,甚至可能更慢的速度偷偷盗取了微软(或者某知名公司)刚上市的一款软件重要信息。
工作分配与昨天一样。
成员 | 已完成任务 | 新任务 |
彭林江 | 研究美团爬虫 | 落实API |
牛强 | 研究美团爬虫 | 落实意见反馈功能测试 |
高雅智 | 研究美团爬虫 | 测试已完成组件 |
郝倩 | 研究遍历美团数据方法 | 提升爬虫程序性能 |
王卓 | 研究遍历美团数据方法 | 提升爬虫程序性能 |
张明培育 | 实施UI改善 | 实施UI改善 |
今天的燃尽图如下
上面的这个燃尽图是有些问题的
可对比下面的燃尽图中的两个红点,者分别代表12.19和12.20真正的位置,之前由于TFS出了问题,导致19号的工作量为0,20号的工作量与21号的工作量被一同计算了。
SCRUM 12.21的更多相关文章
- Daily scrum 12.21
今天ui组反映了一个数据库数据类型的问题,开发人员在完成任务后再去处理. Member Today’s task 林豪森 与学霸其他小组交流,处理整合问题 宋天舒 修复数据库问题 张迎春 修复数据库问 ...
- Daily Scrum 12/21/2015
Process: Zhaoyang: Integrate the oxford Speech API Code to the IOS client and do some UI optimizatio ...
- 2015.12.21~2015.12.24真题回顾!-- HTML5学堂
2015.12.21~2015.12.24真题回顾!-- HTML5学堂 山不在高,有仙则名!水不在深,有龙则灵!千里冰封,非一日之寒!IT之路,须厚积薄发!一日一小练,功成不是梦!小小技巧,尽在HT ...
- 【我的书】Unity Shader的书 — 文件夹(2015.12.21更新)
写在前面 感谢全部点进来看的朋友.没错.我眼下打算写一本关于Unity Shader的书. 出书的目的有以下几个: 总结我接触Unity Shader以来的历程,给其它人一个借鉴.我非常明确学Shad ...
- Daily Scrum 12.20
Member Task on 12.20 Task on 12.21 仇栋民 继续Task972 : 完成活动评分基础功能 完成Task972 : 完成活动评分基础功能 康家华 完成 Task1010 ...
- 11:12:21.924 [main] DEBUG org.apache.ibatis.logging.LogFactory - Logging initialized using 'class org.apache.ibatis.logging.slf4j.Slf4jImpl' adapter.
11:12:21.924 [main] DEBUG org.apache.ibatis.logging.LogFactory - Logging initialized using 'class or ...
- 2021.12.21 eleveni的刷题记录
2021.12.21 eleveni的刷题记录 0. 有意思的题 P6701 [POI1997] Genotype https://www.luogu.com.cn/problem/P6701 状压优 ...
- Notes of Daily Scrum Meeting(12.21)
今天的燃尽图把周六的进度加了进来,由于我的失误没有及时更新TFS,所以出现了一些错误,向大家道歉. 下面是今天的任务总结: 团队成员 今日团队工作 陈少杰 继续进行网络连接的调试 王迪 测试搜索的功能 ...
- Daily Scrum 12.4
今日完成任务: 对数据库完成了整理,以下是整理的内容: # 表 改动 原因 1 Answer 保留credit列,作为投票数 建议改名为vote,同意? 2 Answer qid.uid设置为外码 ...
随机推荐
- Linux读写执行权限对目录和文件的影响
提示:这里的用户指的是普通用户 读写执行权限对root无效 对于目录来说 1)只拥有读权限 可以ls 查看目录内容,不能切换进目录中去 也不能创建目录或文件 [support@node1 opt]$ ...
- ES5-ES6-ES7_const声明只读常量
const 概述const声明一个只读的常量.一旦声明,常量的值就不能改变.const声明的变量不得改变值,这意味着,const一旦声明变量,就必须立即初始化,不能留到以后赋值. // const P ...
- centos7下安装docker(12.2自定义网络)
通常默认的情况下我们使用的是docker的bridge的网络,用户也可以根据自己的业务需要,创建user-defined docker 提供三种user-defined网络驱动:bridge,over ...
- Mongodb主从模式SECONDARY提升为PRIMARY
生产环境不建议仅使用PRIMARY-SECONDARY模式 当primary挂掉,并且无法恢复时,可以把secondary提升为主节点. 注意:此时从节点可能有部分数据未同步过来,部分数据可能丢失. ...
- butter
题目描述 农夫John发现做出全威斯康辛州最甜的黄油的方法:糖.把糖放在一片牧场上,他知道N(1<=N<=500)只奶牛会过来舔它,这样就能做出能卖好价钱的超甜黄油.当然,他将付出额外的费 ...
- Find a multiple POJ - 2356 (抽屉原理)
抽屉原理: 形式一:设把n+1个元素划分至n个集合中(A1,A2,…,An),用a1,a2,…,an分别表示这n个集合对应包含的元素个数,则:至少存在某个集合Ai,其包含元素个数值ai大于或等于2. ...
- MySql常用命令集Mysql常用命令4
说明: 用中括号([])括起来的部分表示是可选的,用大括号({})括起来的部分是表示必须 从中选择其中的一个. 1 FROM子句 FROM 子句指定了Select语句中字段的来源.FROM子句后面是包 ...
- go标准库的学习-io
参考https://studygolang.com/pkgdoc 导入方式: import "io" o包提供了对I/O原语的基本接口.本包的基本任务是包装这些原语已有的实现(如o ...
- gitlab--ci文件
1.when: manual 手动执行(加到哪个脚本中,哪个就会变成手动执行)
- 5G的真正价值
导读 5G时代已经到来,它究竟会给我们的工作和生活带来什么样的改变?5G的爆点,究竟会出现在哪里?我们又该如何把握5G带来的发展机遇? 进入2019年之后,5G的商用步伐在不断加快.全球各地,都在忙着 ...