以下为我们爬虫遇到问题的报告

我们团队的m2阶段原本计划是爬取美团的信息以支持我们的app对比功能,但在这一阶段遇到很多问题,主要表现如下:

  • 美团反爬机制:

由于我们团队人员在事先并不知道美团具有反爬机制,所以一开始就全力着重于美团网页的分析,但当我们几乎把爬虫程序写完之后才发现,美团的网页具有反爬机制,每当我们爬取3到5的网页的内容时,就不能再继续爬取。但我们并没有因此放弃,我们又尝试了其他     方法。我们尝试着写程序把美团网页给下载下来,但是发现下载下来的网页全是报错网页,到最后我们直接用浏览器打开美团的网页都打不开,不得不放弃美团。

  • 大众点评外卖,百度外卖,淘点点外卖:

在爬取美团失败之后,我们也并没有直接放弃,又尝试了其他外卖网站,但都通通碰壁。

首先是大众点评,也有反扒机制,网页下载下来和美团的一样全是出错网页。百度外卖也是如此。

还有就是淘点点外卖。这个是比较特殊的问题,因为淘点点外卖是和淘宝账号关联的,订餐以前必须先登陆淘宝账户。所以我们爬取的时候只能以某一个团队成员的账户进行爬取。结果是,网页能成功爬取下来,但是爬取得到的链接再次打开时打开的却是淘宝的登录界     面,自然信息就无法成功获取。

最后,我们负责爬虫的 成员决定不再爬取其他外卖网站的信息,而是转向爬虫程序的性能提升,希望能做到我们app数据的实时更新。

成员任务分配如下

成员 已完成任务 新任务
彭林江 研究美团爬虫  落实API
牛强  研究美团爬虫 落实意见反馈功能测试
高雅智 研究美团爬虫 测试已完成组件
郝倩 研究遍历美团数据方法 提升爬虫程序性能
王卓 研究遍历美团数据方法 提升爬虫程序性能
张明培育 实施UI改善 实施UI改善

燃尽图(TFS还是有问题,无法生成正常的燃尽图,等到正常了再发)

SCRUM 12.20的更多相关文章

  1. Daily Scrum 12.20

    Member Task on 12.20 Task on 12.21 仇栋民 继续Task972 : 完成活动评分基础功能 完成Task972 : 完成活动评分基础功能 康家华 完成 Task1010 ...

  2. Daily Scrum 12.19

    Member Task on 12.19 Task on 12.20 仇栋民 请假 完成Task972 : 完成活动评分基础功能 康家华 完成 Task1004 : 百度map UI优化 完成Task ...

  3. SCRUM 12.21

    从爬虫遇到的问题中我们学会了: 1.有的网站是有反爬虫机制的,外卖网站(我们猜测基本所有盈利性质的网站可能都是)全部都有. 2.我们对于反爬虫机制有了一定的了解.   本次爬虫测试中,我们最后连美团网 ...

  4. Notes of Daily Scrum Meeting(12.20)

    今天是周六,大家空余的时间还是挺多的,也都主动完成了当天工作,最后由于我的失误,在晚上12点 之前没有把进度签入进TFS里面,所以周六的燃尽图是错误的,我把进度加进周日,总的进度会在周日的燃尽 图里面 ...

  5. 硝烟中的Scrum和XP-我们如何实施Scrum 12)发布计划 13)组合XP

    12 怎样制定发布计划, 处理固定价格的合同 一次只计划一个sprint的事情会显得提前量不足, 提前做计划是个好习惯; 尤其是签了固定价格的合同之后, 不得不预先计划好, 防止无法按期交付的危险情况 ...

  6. Daily Scrum 12.4

    今日完成任务: 对数据库完成了整理,以下是整理的内容: # 表 改动 原因 1 Answer 保留credit列,作为投票数 建议改名为vote,同意?   2 Answer qid.uid设置为外码 ...

  7. Daily Scrum 12.8

    Member Task on 12.08 Task on 12.09 仇栋民 参与M2阶段第二次决策会议 开始Task964 : 活动评论功能雏形 康家华 开始Task982 : 完成活动界面的设计稿 ...

  8. Daily Scrum 10.20

    今天进行了团队第一次scrum meeting,在这次会议中,我们针对NABC模型以及开发前期的工作进行了探讨. 第一次会议 主要内容如下: 为了大家接下来几周的开发效率,需要共同商量团队的一些规则 ...

  9. AI行业精选日报_人工智能(12·20)

    IDC:中国智能家居市场2020年十大预测 12 月 20 日消息,「IDC 咨询」官方公众号发布「中国智能家居 2020 年十大预测」.具体内容如下:互联平台加速整合.语音助手广泛赋能.智能电视显著 ...

随机推荐

  1. 【PAT】B1050 螺旋矩阵(25 分)

    实在不觉得递归等方式有什么简单的地方,没错我就是用的最笨的方法模拟. 和我一样的小白看代码应该很容易理解. #include<stdio.h> #include<math.h> ...

  2. MySQL sql_mode=only_full_group_by错误

    今天在测试服务器上突然出现了这么一个MySQL的问题,同样的代码正式服没有问题,那肯定就是出在了配置上,查了一下原因才明白原来是数据库版本为5.7以上的版本, 默认是开启了 only_full_gro ...

  3. 记录:一个SQL SERVER奇怪的问题。

    今天遇到了一个奇怪的问题.始终没搞清楚是怎么回事.先记一下 1.首先有张表a,包含字段 编号.日期(varchar(250)),数值 发生日期字段有非正常日期字符串,有NULL,空字符串,可能是误触键 ...

  4. Python getting started guide

    Get up in the morning. The first thing is to write a blog, although it uses machine translation, it ...

  5. 个人技术博客Alpha----Android Studio UI学习

    项目联系 这次的项目我在前端组,负责UI,下面简略讲下学到的内容和使用AS过程中遇到的一些问题及其解决方法. 常见UI控件的使用 1.TextView 在TextView中,首先用android:id ...

  6. PyCharm设置Python版本

    PyCharm默认会使用虚拟的Python解释器,即使没有安装也能够运行Python代码,但有强迫症的程序员一定不能忍受Project中存在这么多的文件目录 设置Python版本 File->S ...

  7. MapReduce全局变量之捉虫记

    全局变量 写MapReduce程序时候,有时候须要用到全局变量,经常使用的全局变量实现由三种方式: 通过作业的Configuration传递全局变量.作业初始化的时候.conf.set(),须要的时候 ...

  8. 修改CentOS 7.2系统的主机名

    之前使用网上的大部分说法,修改了两个配置文件: /etc/hosts /etc/sysconfig/network 然后,并没有什么卵用. 后来,搜阿里云配置,看到这个办法: 使用“经典网络”类型的E ...

  9. M100 (1) 运行

    软件环境设置指南 本指南详细介绍了使用Onboard SDK所需的软件环境. https://developer.dji.com/onboard-sdk/documentation/developme ...

  10. Spring中实现多数据源事务管理

    文章转自  https://www.2cto.com/kf/201507/424229.html 前言 由于项目中引入了多个数据源,并且需要对多个数据源进行写操作,那么多数据源的事务管理自然成了不可避 ...