python抓取链家房源信息

闲着没事就抓取了下链家网的房源信息，抓取的是北京二手房的信息情况，然后通过网址进行分析，有100页，并且每页的url都是类似的

url = 'https://bj.lianjia.com/ershoufang/pg' + 页数，然后请求是get 请求，所以静态页面，然后依次来进行分析，并且存储在mongodb中，每次插入的时候还是要字符串装换成json格式在进行插入，页面的解析用的是bs，解析很方便，代码用的是单进程，耗时是大致66s，因为怕ip被封，所以在每次页面请求之后都要sleep 1秒。

#-*-coding:utf-8-*-

import urllib

import urllib2

import re

import requests

import json

import lxml

from bs4 import BeautifulSoup

import time

from pymongo import MongoClient

from lxml import etree

client = MongoClient('localhost',27017)

db = client.test

House = db.House

headers = {

    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

    'Accept-Encoding':'gzip, deflate, br',

    'Accept-Language':'zh-CN,zh;q=0.9',

    'Cache-Control':'max-age=0',

    'Connection':'keep-alive',

    'Cookie':'......',

    'Host':'bj.lianjia.com',

    'Upgrade-Insecure-Requests':'',

    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'

}

URL = 'https://bj.lianjia.com/ershoufang/pg'

def download(url):

    num_try = 2

    while num_try > 0:

        num_try -= 1

        try:

            content = requests.get(url,headers = headers)

            return content.text

        except urllib2.URLError as e:

            print 'Download error',e.reason

    return None

def get_message(url):

    html = download(url)

    soup = BeautifulSoup(html,'html.parser')

    prices = soup.find_all('div','priceInfo')

    total_price = []

    for each in prices:

        total_price.append(each.span.string)

    address = []

    house_types = []

    areas = []

    towards = []

    decorates = []

    elevates = []

    message = soup.find_all('div',attrs={'class':'houseInfo'})

    for each in message:

        List = each.get_text().split('|')

        address.append(List[0].strip())

        house_types.append(List[1].strip())

        areas.append(List[2].strip())

        towards.append(List[3].strip())

        decorates.append(List[4].strip())

        if len(List) == 5:

            elevates.append("None")

        else:

            elevates.append(List[5].strip())

    for addres,house_type,area,price,toward,decorate,elevate in zip(address,house_types,areas,total_price,towards,decorates,elevates):

        mess = "{\"Address\":\"%s\",\"House_type\":\"%s\",\"Area\":\"%s\",\"Price\":\"%s\",\"Toward\":\"%s\",\"Decorate\":\"%s\",\"Elevete\":\"%s\"}"%(addres,house_type,area,price,toward,decorate,elevate)

        print mess

        message = json.loads(mess)

        House.insert(message)

if __name__ == '__main__':

    t = time.time()

    print t

    for num in xrange(1,101):

        url = URL + str(num)

        print url

        get_message(url)

        time.sleep(1)

    t1 = time.time()

    print 'Total time:'

    print t1 - t - 100

python抓取链家房源信息的更多相关文章

python抓取链家房源信息(二)
试着用scrapy将之前写的抓取链家网信息的重新写了写然后先是用了第一页的网页作为测试,调试代码,然后发现总是抓取的时候遇见了类似于这样的问题,并且抓取不到信息 2017-03-28 17:52: ...
python抓取链家房源信息(三)
之前写过一个链家网北京二手房的数据抓取,然后本来今天想着要把所有的东西弄完,但是临时有事出去了一趟,耽搁了一下,然后现在是想着把北京的二手房的信息都进行抓取,并且存储在mongodb中, 首先是通过' ...
Python爬取链家二手房源信息
爬取链家网站二手房房源信息,第一次做,仅供参考,要用scrapy. import scrapy,pypinyin,requests import bs4 from ..items import L ...
python爬取链家二手房信息，确认过眼神我是买不起的人
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
【nodejs 爬虫】使用 puppeteer 爬取链家房价信息
使用 puppeteer 爬取链家房价信息目录使用 puppeteer 爬取链家房价信息页面结构爬虫库 pupeteer 库实现打开待爬页面遍历区级页面方法一方法二遍历街道页面遍 ...
Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
用python抓取智联招聘信息并存入excel
用python抓取智联招聘信息并存入excel tags:python 智联招聘导出excel 引言:前一阵子是人们俗称的金三银四,跳槽的小朋友很多,我觉得每个人都应该给自己做一下规划,根据自己的进步 ...
使用python抓取58手机维修信息
之前在ququ的博客上看到说 python 中的BeautifulSoup 挺好玩的,今天下午果断下载下来,看了下api,挺好用的,完了2把,不错. 晚上写了一个使用python抓取58手机维修信息的 ...
使用python抓取有路网图书信息（原创）
以前挺喜欢去有路网买二手书的,但是有路网有个缺陷,就是放在图书列表中的书很多都没货了,尤其是一些热门的方向,比如android,在列表中的书大多都没有货了,你必须一个一个点进入查看详细信息才能得知图书 ...

随机推荐

NOIP2017 【游记】
一年过去,想起去年还是个傻b[今年也是],心里总是无限的感慨. 脑海里是日日夜夜在机房的身影,一题一题AC的激情我等今年等了许久,虽然我是个蒟蒻,但我有梦想的憧憬鲲鹏展翅翼向天,扶摇直上九万里. ...
《javascript高级程序设计（第3版）》-1
javascript有下列三个不同的部分组成: ECMAScript,由ECMA-262定义,提供核心语言功能文档对象模型(DOM),提供访问和操作网页内容的方法和接口浏览器对象模型(BOM),提 ...
BFC 块级元素格式化上下文
Block Formatting Contexts: 块级元素格式化上下文块级元素如何对它的内容(子元素:也是一个块元素)进行布局,以及与其它元素(与内容同级别)的关系和相互作用普通文档流的布局规则 ...
Java SE/EE/ME概念理解（Java版本发展历史）
继上一篇文章http://www.cnblogs.com/EasonJim/p/6181981.html中说的区别,其实分析的不够彻底,因此再次在这里做详细的分析. 零.Java与Sun.Oracle ...
fmt:formatNumber use locale display negative currency in -$xxx.xx format in JSTL
First, we want to know our own locale,how to display the locale in a JSTL? <c:out value="${p ...
图论&数学：拉姆齐（Ramsey）定理
拉姆齐(Ramsey)定理是要解决以下的问题:要找这样一个最小的数n,使得n个人中必定有k个人相识或l个人互不相识我们所知道的结论是这样的 6 个人中至少存在3人相互认识或者相互不认识. 该定理等价 ...
利用PhantomJS生成网站截图
var page = require('webpage').create(); page.open('http://qq.com', function () { page.render('exampl ...
Python ：集合类型（set）
set 是一个无序的元素集合,支持并.交.差及对称差等数学运算, 但由于 set 不记录元素位置,因此不支持索引.分片等序列的操作. 一.初始化 s0 = set() d0 = {} s1 = {0} ...
在Unity中实现屏幕空间反射Screen Space Reflection（3）
本篇讲一下相交检测的优化.有两个措施. 线段相交检测之前的检测都是检测光线的终点是否在物体内.我们可以尝试检测光线的线段是否与物体相交. 比如说有一个非常薄的物体,光线差不多垂直于它的表面.如果用普 ...
react-native关于ios的启动图标设置
1.首先我们需要使用xcode打开项目,选择项目中的images.xcassets这个文件夹 2.点击AppIcon可以看到右边出现针对不同设备的图标尺寸 3.在左边空白处右击,选择Import... ...

python抓取链家房源信息

python抓取链家房源信息的更多相关文章

随机推荐

热门专题