python 爬取链家

import json

import  requests

from lxml import etree

from time import sleep

url = "https://sz.lianjia.com/ershoufang/rs/"

headers = {

    "User-Agent":"",

    "Refer":"https://sz.lianjia.com/ershoufang/pg2/"

}

resp = requests.get(url,headers=headers)

base_url = "https://sz.lianjia.com/ershoufang/pg{}/"

html = etree.HTML(resp.text)

data = html.xpath('//*[@id="content"]//div[@class="page-box fr"]/div/@page-data')

data = json.loads(data[0])

totalPage = data['totalPage']

curPage = data['curPage']

def get_data(url):

    list = []

    resp = requests.get(url, headers=headers)

    html = etree.HTML(resp.text)

    ul = html.xpath('.//ul[@class="sellListContent"]/li')

    for li in ul:

        face = li.xpath('./a/img/@src')

        title = li.xpath('.//div[@class="title"]/a/text()')

        position = li.xpath('.//div[@class="positionInfo"]/a/text()')

        house_info = li.xpath('.//div[@class="houseInfo"]/text()')

        follow_info = li.xpath('.//div[@class="followInfo"]/text()')

        price = li.xpath('.//div[@class="priceInfo"]/div[@class="totalPrice"]/span/text()')

        unit_price = li.xpath('.//div[@class="priceInfo"]/div[@class="unitPrice"]/span/text()')

        tag = li.xpath('.//div[@class="tag"]//span/text()')

        content = {}

        content["face"] = face[0]

        content["title"] = title[0]

        content["position"] = position[0]

        content["house_info"] = house_info[0]

        content["follow_info"] = follow_info[0]

        content["price"] = price[0]

        content["unit_price"] = unit_price[0]

        if len(tag) >=1 and  tag[0] is not None:

            content['tag'] = tag[0]

        list.append(content)

    return list

totalList = []

for i in range(1,totalPage+1):

    url = base_url.format(i)

    print("crawl url  " + url)

    cur_list = get_data(url)

    print(cur_list)

    totalList = totalList + cur_list

url = base_url.format(1)

print(totalList)

python 爬取链家的更多相关文章

Python爬取链家二手房源信息
爬取链家网站二手房房源信息,第一次做,仅供参考,要用scrapy. import scrapy,pypinyin,requests import bs4 from ..items import L ...
适合初学者的Python爬取链家网教程
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: TinaLY PS:如有需要Python学习资料的小伙伴可以加点击下 ...
python爬取链家二手房信息，确认过眼神我是买不起的人
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
Python爬虫项目--爬取链家热门城市新房
本次实战是利用爬虫爬取链家的新房(声明: 内容仅用于学习交流, 请勿用作商业用途) 环境 win8, python 3.7, pycharm 正文 1. 目标网站分析通过分析, 找出相关url, 确 ...
Python的scrapy之爬取链家网房价信息并保存到本地
因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息都保存在 ul 下的li 里面爬虫结构: 其中封装了一个数据库处理模 ...
python爬虫：爬取链家深圳全部二手房的详细信息
1.问题描述: 爬取链家深圳全部二手房的详细信息,并将爬取的数据存储到CSV文件中 2.思路分析: (1)目标网址:https://sz.lianjia.com/ershoufang/ (2)代码结构 ...
python爬虫：利用BeautifulSoup爬取链家深圳二手房首页的详细信息
1.问题描述: 爬取链家深圳二手房的详细信息,并将爬取的数据存储到Excel表 2.思路分析: 发送请求--获取数据--解析数据--存储数据 1.目标网址:https://sz.lianjia.com ...
Python——Scrapy爬取链家网站所有房源信息
用scrapy爬取链家全国以上房源分类的信息: 路径: items.py # -*- coding: utf-8 -*- # Define here the models for your scrap ...
Scrapy实战篇（一）之爬取链家网成交房源数据（上）
今天,我们就以链家网南京地区为例,来学习爬取链家网的成交房源数据. 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便. ...

随机推荐

get、post请求方式区别
1.get请求只有请求头,没有请求体,它的参数只能写在url里面,post请求数据放在请求体里面 (HTTP协议:两台电脑交互url请求头Request Headers:一些额外的信息,比如用的什么浏 ...
漏洞扫描工具acunetix破解安装步骤
Acunetix 12破解版安装教程下载地址: 链接:https://pan.baidu.com/s/1jsKkrhOcx_O7ib7FQ6pidw 提取码:pwdj 1.下载软件压缩包文件,首先点 ...
[剑指Offer]66-构建乘积数组
题目给定一个数组A[0,1,...,n-1],请构建一个数组B[0,1,...,n-1],其中B中的元素B[i]=A[0]A[1]...A[i-1]A[i+1]...A[n-1].不能使用除法. 题 ...
云计算openstack核心组件——horizon Web管理界面（10）
一.horizon 介绍: 理解 horizon Horizon 为 Openstack 提供一个 WEB 前端的管理界面 (UI 服务 )通过 Horizone 所提供的 DashBoard 服务 ...
hystrix文档翻译之metrics
metrics和监控动机 HystrixCommands和HystrixObservableCommands执行过程中会产生相关运行情况的metrics.这些metrics对于监控系统表现有很大的 ...
python中yield的用法详解——最简单，最清晰的解释(转载)
原文链接首先我要吐槽一下,看程序的过程中遇见了yield这个关键字,然后百度的时候,发现没有一个能简单的让我懂的,讲起来真TM的都是头头是道,什么参数,什么传递的,还口口声声说自己的教程是最简单的, ...
day56:django:csrf_token&文件上传
目录 1.csrf介绍 2.django实现csrf_token认证 3.django实现文件上传 csrf介绍什么是csrf? csrf:跨站请求伪造.攻击者通过HTTP请求将数据传送到服务器,从 ...
uni-app开发注意事项
关于vue 1.注意如果使用老版的非自定义组件模式,即manifest中"usingComponents":false,部分模版语法不支持,但此模式已于2019年11月起下线. ...
python一些小trick
数据去重 lst = ['1','2','3','3'] lst = list(set(lst)) 不同根目录下引用另一个库例如 |--a--a.py |--b--b.py 在b.py中调用库a.p ...
l洛谷 P6030 [SDOI2012]走迷宫概率与期望+高斯消元
题目描述传送门分析首先判掉 \(INF\) 的情况第一种情况就是不能从 \(s\) 走到 \(t\) 第二种情况就是从 \(s\) 出发走到了出度为 \(0\) 的点,这样就再也走不到 \(t ...

python 爬取链家

python 爬取链家的更多相关文章

随机推荐

热门专题