以下为我们爬虫遇到问题的报告

我们团队的m2阶段原本计划是爬取美团的信息以支持我们的app对比功能,但在这一阶段遇到很多问题,主要表现如下:

  • 美团反爬机制:

由于我们团队人员在事先并不知道美团具有反爬机制,所以一开始就全力着重于美团网页的分析,但当我们几乎把爬虫程序写完之后才发现,美团的网页具有反爬机制,每当我们爬取3到5的网页的内容时,就不能再继续爬取。但我们并没有因此放弃,我们又尝试了其他     方法。我们尝试着写程序把美团网页给下载下来,但是发现下载下来的网页全是报错网页,到最后我们直接用浏览器打开美团的网页都打不开,不得不放弃美团。

  • 大众点评外卖,百度外卖,淘点点外卖:

在爬取美团失败之后,我们也并没有直接放弃,又尝试了其他外卖网站,但都通通碰壁。

首先是大众点评,也有反扒机制,网页下载下来和美团的一样全是出错网页。百度外卖也是如此。

还有就是淘点点外卖。这个是比较特殊的问题,因为淘点点外卖是和淘宝账号关联的,订餐以前必须先登陆淘宝账户。所以我们爬取的时候只能以某一个团队成员的账户进行爬取。结果是,网页能成功爬取下来,但是爬取得到的链接再次打开时打开的却是淘宝的登录界     面,自然信息就无法成功获取。

最后,我们负责爬虫的 成员决定不再爬取其他外卖网站的信息,而是转向爬虫程序的性能提升,希望能做到我们app数据的实时更新。

成员任务分配如下

成员 已完成任务 新任务
彭林江 研究美团爬虫  落实API
牛强  研究美团爬虫 落实意见反馈功能测试
高雅智 研究美团爬虫 测试已完成组件
郝倩 研究遍历美团数据方法 提升爬虫程序性能
王卓 研究遍历美团数据方法 提升爬虫程序性能
张明培育 实施UI改善 实施UI改善

燃尽图(TFS还是有问题,无法生成正常的燃尽图,等到正常了再发)

SCRUM 12.20的更多相关文章

  1. Daily Scrum 12.20

    Member Task on 12.20 Task on 12.21 仇栋民 继续Task972 : 完成活动评分基础功能 完成Task972 : 完成活动评分基础功能 康家华 完成 Task1010 ...

  2. Daily Scrum 12.19

    Member Task on 12.19 Task on 12.20 仇栋民 请假 完成Task972 : 完成活动评分基础功能 康家华 完成 Task1004 : 百度map UI优化 完成Task ...

  3. SCRUM 12.21

    从爬虫遇到的问题中我们学会了: 1.有的网站是有反爬虫机制的,外卖网站(我们猜测基本所有盈利性质的网站可能都是)全部都有. 2.我们对于反爬虫机制有了一定的了解.   本次爬虫测试中,我们最后连美团网 ...

  4. Notes of Daily Scrum Meeting(12.20)

    今天是周六,大家空余的时间还是挺多的,也都主动完成了当天工作,最后由于我的失误,在晚上12点 之前没有把进度签入进TFS里面,所以周六的燃尽图是错误的,我把进度加进周日,总的进度会在周日的燃尽 图里面 ...

  5. 硝烟中的Scrum和XP-我们如何实施Scrum 12)发布计划 13)组合XP

    12 怎样制定发布计划, 处理固定价格的合同 一次只计划一个sprint的事情会显得提前量不足, 提前做计划是个好习惯; 尤其是签了固定价格的合同之后, 不得不预先计划好, 防止无法按期交付的危险情况 ...

  6. Daily Scrum 12.4

    今日完成任务: 对数据库完成了整理,以下是整理的内容: # 表 改动 原因 1 Answer 保留credit列,作为投票数 建议改名为vote,同意?   2 Answer qid.uid设置为外码 ...

  7. Daily Scrum 12.8

    Member Task on 12.08 Task on 12.09 仇栋民 参与M2阶段第二次决策会议 开始Task964 : 活动评论功能雏形 康家华 开始Task982 : 完成活动界面的设计稿 ...

  8. Daily Scrum 10.20

    今天进行了团队第一次scrum meeting,在这次会议中,我们针对NABC模型以及开发前期的工作进行了探讨. 第一次会议 主要内容如下: 为了大家接下来几周的开发效率,需要共同商量团队的一些规则 ...

  9. AI行业精选日报_人工智能(12·20)

    IDC:中国智能家居市场2020年十大预测 12 月 20 日消息,「IDC 咨询」官方公众号发布「中国智能家居 2020 年十大预测」.具体内容如下:互联平台加速整合.语音助手广泛赋能.智能电视显著 ...

随机推荐

  1. 【PAT】B1036 跟奥巴马一起编程(15)(15 分

    #include<stdio.h> int main() { int row,col; char c; scanf("%d %c",&col,&c); ...

  2. Mysql基础之 基础知识解释

    Mysql基础知识 RDBMS:关系型数据库管理系统.是将数据组织成相关的行和列的系统 存储过程:是存储在数据库中的一段声明性语句.触发器.java.php等都可以调用其存储过程.早期的mysql版本 ...

  3. 4.1Python数据处理篇之Matplotlib系列(一)---初识Matplotlib

    目录 目录 前言 (一)matplotlib的介绍 (二)画一个简单的画布 ==1.源代码== ==2.展示效果== (三)画布按键的功能介绍 ==1.对于画布功能键的排序== ==(1)主页== = ...

  4. Linq2DB之研究和探索

    1,对linq2db使用看法 最近在研究linq2db,用起来还不错,性能还不错的.之前也在博客园有些网友说用ado.net和depper写SQL语句,性能还要高.有时候牺牲点性能,为了提高开发效率, ...

  5. IOS - 执行时 (经常使用函数)

    能够通过NSObject的一些方法获取运行时信息或动态运行一些消息: /*Returns a Boolean value that indicates whether the receiving cl ...

  6. jquery ajax 方法实例

      每天学习一点点 编程PDF电子书.视频教程免费下载:http://www.shitanlife.com/code     直接上代码, ajax实例: $.ajax({      type : & ...

  7. ethereum/EIPs-712 Ethereum typed structured data hashing and signing

    https://github.com/ethereum/EIPs/blob/master/EIPS/eip-712.md eip title author discussions-to status ...

  8. metamask源码学习-contentscript.js

    When a new site is visited, the WebExtension creates a new ContentScript in that page's context, whi ...

  9. nginx反向代理与Real-IP和X-Forwarded-For.txt

    本文作者张开涛.为保障<亿级流量网站架构核心技术>一书内容的连续性,有些需要读者了解的内容,或者书的补充和引申内容,会通过二维码嵌入的方式引导读者阅读学习.大家可以关注作者公众号“开涛的博 ...

  10. Qt+QGis二次开发:创建临时图层并添加要素

    开发环境:Win10 + VS2010 + Qt 4.8.6 + QGis 2.14.4 其实本文实现的功能类似于QGis中“添加文本数据图层”的一个简化版,本文不会涉及到对话框的使用,不通过与用户互 ...