之前写过一个链家网北京二手房的数据抓取,然后本来今天想着要把所有的东西弄完,但是临时有事出去了一趟,耽搁了一下,然后现在是想着把北京的二手房的信息都进行抓取,并且存储在mongodb中,

首先是通过'https://bj.lianjia.com'的url将按照区域划分和地铁路线图进行划分的所有的url抓取出来进行存储,然后在进行下一步的分析,然后会每一套房源信息都会有一个data-housecode,标识是那一套房间,为了避免有重复的房源信息,在每套房的数据中将data-housecode,数据作为每一套房的标识,进行存储,然后在抓取到房源信息存储到mongodb中时,通过data-housecode进行判断,看当前房源是否已经存储完全,如果已经存储了,则不必插入,否则将该房源信息插入到mongodb中。

用的还是scrapy框架,然后只是在spider.py中添加了按照区和地铁路线图的所有的房源信息,当然根据区域和地铁还可以分的更细。。。

大致的爬虫的框架是:

在scrapy框架中,使用过程是,在spider.py中,将要获取的url请求给scheduler,然后通过download模块进行Request下载数据,如果下载失败,会将结果告诉scrapy engine,然后scrapy engine会稍后进行重新请求,然后download将下载的数据给spider,spider进行数据处理,抓取需要保存的按照地铁路线或者是区域的url,然后跟进url,将个个不同的url进行告诉scrapy engine,然后又通过相同的远离然后进行抓取,然后存储每个房源的标识和条件情况,然后将处理结果返回给item,通过item进行mongodb的存储。

scrapy.py中的代码如下:

#-*-coding:utf-8-*-
import scrapy
import re
from bs4 import BeautifulSoup
import time import json
from scrapy.http import Request
from House.items import HouseItem
import lxml.html
from lxml import etree
class spider(scrapy.Spider):
name = 'House'
url = 'https://bj.lianjia.com'
base_url = 'https://bj.lianjia.com/ershoufang'
def start_requests(self):
print(self.base_url)
yield Request(self.base_url,self.get_area_url,dont_filter=True) def get_area_url(self,response):
selector = etree.HTML(response.text)
results = selector.xpath('//dd/div/div/a/@href')
for each in results:
if 'lianjia' not in each:
url = self.url + each
else:
url = each
print(url)
yield Request(url, self.get_total_page, dont_filter=True)
def get_total_page(self,response):
soup = BeautifulSoup(response.text, 'lxml')
Total_page = soup.find_all('div', class_='page-box house-lst-page-box')
res = r'<div .*? page-data=\'{\"totalPage\":(.*?),"curPage":.*?}\' page-url=".*?'
total_num = re.findall(res, str(Total_page), re.S | re.M) for i in range(1, int(total_num[0])):
print(i)
url = response.url + 'pg' + str(i)
print(url)
yield Request(url, self.parse, dont_filter=True) def parse(self, response):
soup = BeautifulSoup(response.text,'lxml') message1 = soup.find_all('div',class_ = 'houseInfo')
message2 = soup.find_all('div',class_ = 'followInfo')
message3 = soup.find_all('div',class_ = 'positionInfo')
message4 = soup.find_all('div',class_ = 'title')
message5 = soup.find_all('div',class_ = 'totalPrice')
message6 = soup.find_all('div',class_ = 'unitPrice')
message7 = soup.find_all(name='a', attrs={'class': 'img'})
Flags = []
for each in message7:
Flags.append(each.get('data-housecode'))
num = 0
for flag,each,each1,each2,each3,each4,each5 in zip(Flags,message1,message2,message3,message4,message5,message6):
List = each.get_text().split('|')
item = HouseItem()
item['flag'] = flag
item['address'] = List[0].strip()
item['house_type'] = List[1].strip()
item['area'] = List[2].strip()
item['toward'] = List[3].strip()
item['decorate'] = List[4].strip()
if len(List) == 5:
item['elevate'] = 'None'
else:
item['elevate'] = List[5].strip()
List = each1.get_text().split('/')
item['interest'] = List[0].strip()
item['watch'] = List[1].strip()
item['publish'] = List[2].strip()
List = each2.get_text().split('-')
item['build'] = List[0].strip()
item['local'] = List[1].strip()
item['advantage'] = each3.get_text().strip()
item['price'] = each4.get_text().strip()
item['unit'] = each5.get_text().strip() print("%s %s %s %s %s %s %s %s %s %s %s %s %s %s %s "%(item['flag'],item['address'],item['house_type'],item['area'],item['toward'],
item['decorate'],item['elevate'],item['interest'],
item['watch'],item['publish'],item['build'],item['local'],item['advantage'],item['price'],item['unit']))
num += 1
yield item

python抓取链家房源信息(三)的更多相关文章

  1. python抓取链家房源信息(二)

    试着用scrapy将之前写的抓取链家网信息的重新写了写 然后先是用了第一页的网页作为测试,调试代码,然后发现总是抓取的时候遇见了 类似于这样的问题,并且抓取不到信息 2017-03-28 17:52: ...

  2. python抓取链家房源信息

    闲着没事就抓取了下链家网的房源信息,抓取的是北京二手房的信息情况,然后通过网址进行分析,有100页,并且每页的url都是类似的 url = 'https://bj.lianjia.com/ershou ...

  3. Python爬取链家二手房源信息

    爬取链家网站二手房房源信息,第一次做,仅供参考,要用scrapy.   import scrapy,pypinyin,requests import bs4 from ..items import L ...

  4. python爬取链家二手房信息,确认过眼神我是买不起的人

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  5. 【nodejs 爬虫】使用 puppeteer 爬取链家房价信息

    使用 puppeteer 爬取链家房价信息 目录 使用 puppeteer 爬取链家房价信息 页面结构 爬虫库 pupeteer 库 实现 打开待爬页面 遍历区级页面 方法一 方法二 遍历街道页面 遍 ...

  6. 用python抓取智联招聘信息并存入excel

    用python抓取智联招聘信息并存入excel tags:python 智联招聘导出excel 引言:前一阵子是人们俗称的金三银四,跳槽的小朋友很多,我觉得每个人都应该给自己做一下规划,根据自己的进步 ...

  7. Python 抓取网页并提取信息(程序详解)

    最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...

  8. 使用python抓取58手机维修信息

    之前在ququ的博客上看到说 python 中的BeautifulSoup 挺好玩的,今天下午果断下载下来,看了下api,挺好用的,完了2把,不错. 晚上写了一个使用python抓取58手机维修信息的 ...

  9. 使用python抓取有路网图书信息(原创)

    以前挺喜欢去有路网买二手书的,但是有路网有个缺陷,就是放在图书列表中的书很多都没货了,尤其是一些热门的方向,比如android,在列表中的书大多都没有货了,你必须一个一个点进入查看详细信息才能得知图书 ...

随机推荐

  1. Implement Queue by Two Stacks

    As the title described, you should only use two stacks to implement a queue's actions. The queue sho ...

  2. 洛谷5月月赛T30212 玩游戏 【分治NTT + 多项式求ln】

    题目链接 洛谷T30212 题解 式子很容易推出来,二项式定理展开后对于\(k\)的答案即可化简为如下: \[k!(\sum\limits_{i = 0}^{k} \frac{\sum\limits_ ...

  3. BZOJ1563/洛谷P1912 诗人小G 【四边形不等式优化dp】

    题目链接 洛谷P1912[原题,需输出方案] BZOJ1563[无SPJ,只需输出结果] 题解 四边形不等式 什么是四边形不等式? 一个定义域在整数上的函数\(val(i,j)\),满足对\(\for ...

  4. [USACO4.1]麦香牛块Beef McNuggets 题解报告

    题目描述 农夫布朗的奶牛们正在进行斗争,因为它们听说麦当劳正在考虑引进一种新产品:麦香牛块.奶牛们正在想尽一切办法让这种可怕的设想泡汤.奶牛们进行斗争的策略之一是"劣质的包装".& ...

  5. POJ.3087 Shuffle'm Up (模拟)

    POJ.3087 Shuffle'm Up (模拟) 题意分析 给定两个长度为len的字符串s1和s2, 接着给出一个长度为len*2的字符串s12. 将字符串s1和s2通过一定的变换变成s12,找到 ...

  6. python基础----元类metaclass

    1 引子 class Foo: pass f1=Foo() #f1是通过Foo类实例化的对象 python中一切皆是对象,类本身也是一个对象,当使用关键字class的时候,python解释器在加载cl ...

  7. oracle 数据库记录

    /*----------------------------------------------------------------------------*/ 问题1[--------] Selec ...

  8. centos7安装python-pip(转)

    好久没更新博客了............. 来一发................ 在使用centos7的软件包管理程序yum安装python-pip的时候会报一下错误: No package pyt ...

  9. 2017 Multi-University Training Contest - 1

    hdu 6033 pragma comment(linker, "/STACK:102400000,102400000") #include <cstdio> #inc ...

  10. 转--snmp如何被tr069替代

    Form:本期话题:技术点详解---新型网管理念TR-069 一. 带内网管与带外网管 网络设备是一种资产,资产往往都需要进行管理,网络设备也不例外,网络设备的作用是网络互联,网络应用是一种实时交互性 ...