python抓取链家房源信息(二)

试着用scrapy将之前写的抓取链家网信息的重新写了写

然后先是用了第一页的网页作为测试，调试代码，然后发现总是抓取的时候遇见了

类似于这样的问题，并且抓取不到信息

2017-03-28 17:52:49 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://weibo.com/robots.txt> (referer: None)
2017-03-28 17:52:49 [scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt: <GET https://bj.lianjia.com/ershoufang/pg1/>
2017-03-28 17:52:49 [scrapy.core.engine] INFO: Closing spider (finished)
之前一直以为是因为没有加user-agent和header信息导致的，但是加上之后还是会出现这种情况，所以百度了下
解决办法是在 setting.py 中：
''# Obey robots.txt rules
ROBOTSTXT_OBEY = True //设置为 False 即可
就能抓出来了，问题是因为 scrapy 默认检测 robots.txt ，看是否可以抓取，如果不行，就不能用了哦！

然后百度了robot.txt，说是在设置爬虫的时候，在请求url之前，spider会向服务器请求一个robot.txt的文件，然后该文件包含了本站点允许爬虫爬取的范围(比如服务器不与许爬取的页面，可以通过robot协议设置)因为scrapy是遵守robot协议的，所以会先请求这个文件查看自己的权限。所以在setting.py中将ROBOTSTXT_OBEY设置为False就可以解决了

然后在将数据插入到mongodb中时，没有插入数据，是忘记在setting.py中激活项目管道组件了。

ITEM_PIPELINES = {
   'House.pipelines.HousePipeline': 300,
}

代码就不贴了，挺简单的，都是设置的问题。

python抓取链家房源信息(二)的更多相关文章

python抓取链家房源信息(三)
之前写过一个链家网北京二手房的数据抓取,然后本来今天想着要把所有的东西弄完,但是临时有事出去了一趟,耽搁了一下,然后现在是想着把北京的二手房的信息都进行抓取,并且存储在mongodb中, 首先是通过' ...
python抓取链家房源信息
闲着没事就抓取了下链家网的房源信息,抓取的是北京二手房的信息情况,然后通过网址进行分析,有100页,并且每页的url都是类似的 url = 'https://bj.lianjia.com/ershou ...
Python爬取链家二手房源信息
爬取链家网站二手房房源信息,第一次做,仅供参考,要用scrapy. import scrapy,pypinyin,requests import bs4 from ..items import L ...
python爬取链家二手房信息，确认过眼神我是买不起的人
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
【nodejs 爬虫】使用 puppeteer 爬取链家房价信息
使用 puppeteer 爬取链家房价信息目录使用 puppeteer 爬取链家房价信息页面结构爬虫库 pupeteer 库实现打开待爬页面遍历区级页面方法一方法二遍历街道页面遍 ...
Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
用python抓取智联招聘信息并存入excel
用python抓取智联招聘信息并存入excel tags:python 智联招聘导出excel 引言:前一阵子是人们俗称的金三银四,跳槽的小朋友很多,我觉得每个人都应该给自己做一下规划,根据自己的进步 ...
使用python抓取58手机维修信息
之前在ququ的博客上看到说 python 中的BeautifulSoup 挺好玩的,今天下午果断下载下来,看了下api,挺好用的,完了2把,不错. 晚上写了一个使用python抓取58手机维修信息的 ...
使用python抓取有路网图书信息（原创）
以前挺喜欢去有路网买二手书的,但是有路网有个缺陷,就是放在图书列表中的书很多都没货了,尤其是一些热门的方向,比如android,在列表中的书大多都没有货了,你必须一个一个点进入查看详细信息才能得知图书 ...

随机推荐

【BZOJ3712】Fiolki（并查集重构树）
[BZOJ3712]Fiolki(并查集重构树) 题面 BZOJ 题解很神仙的题目. 我们发现所有的合并关系构成了一棵树. 那么两种不同的东西如果产生反应,一定在两个联通块恰好联通的时候反应. 那么 ...
unity3d模型不接受光照
9楼发表于 2015-4-21 16:34 | 只看该作者 sailo 发表于 2015-4-14 11:15 你好.遇到同样问题,请问要什么解决 1.你可以选择你不受光线照射的模型,模型属性lay ...
Round 403 div. 2
B 可以二分相遇的坐标:也可以二分时间,判断是否存在两个人的区间没有交. An easy way to intersect a number of segments [l1, r1], ..., [l ...
Codeforces 744C. Hongcow Buys a Deck of Cards（状压DP）
这题的难点在于状态的设计首先显然是个状压,需要一维表示卡的状态,另一维如果设计成天数,难以知道当前的钱数,没法确定是否能够购买新的卡,如果设计成钱数,会发现状态数过多,空间与时间都无法承受.但是可以 ...
【loj2472】IIIDX
Portal --> loj2472 Solution 感觉是一道很有意思的贪心题啊ovo(想了一万个假做法系列==) 比较直观的想法是,既然一个数$i$只会对应一个\(\lfloor\fr ...
python学习(八)定制类和枚举
`python`定制类主要是实现特定功能,通过在类中定义特定的函数完成特定的功能. class Student(object): def __init__(self, name): self.name ...
装饰器--decorator3
装饰器添加返回值 import time def timer(func): def wrapper(*args,**kwargs): #wrapper包装的意思 start_time = time.t ...
OpenCV---模糊操作
推文:图像平滑处理(归一化块滤波.高斯滤波.中值滤波.双边滤波) 推文:图像的平滑与滤波模糊操作三种模糊操作方式均值模糊中值模糊自定义模糊(可以实现上面两种模糊方式) 原理: 图像处理:基础 ...
用js实现千位分隔符
function mm(num) { return num && num .toString() .replace(/(\d)(?=(\d{3})+\.)/g, function($0 ...
codevs 1492 探案第二部
1492 探案第二部时间限制: 1 s 空间限制: 128000 KB 题目描述 Description 我们伟大的 Sherlock·Holmes 先生最近遇上了一件相当棘手的案子,随 ...

python抓取链家房源信息(二)

python抓取链家房源信息(二)的更多相关文章

随机推荐

热门专题