利用python爬取某壳的房产数据

以无锡的某壳为例进行数据爬取，现在房子的价格起伏很快，买房是人生一个大事，了解本地的房价走势来判断是否应该入手。

（建议是近2年不买，本人在21年高位抛了一套房，基本是通过贝壳数据判断房价已经到顶，希望此爬虫能够帮到各位。）

这里只爬了必看好房的数据，贝壳有放抓机制，无法跑全所有数据，有心的可以拿过去扩展一番。

import requests

from pyquery import PyQuery as pq

import json

import pandas as pd

import datetime,time

columns = ['id','title','place','msg', 'price', 'per_meter','area','city']

areas=['滨湖区','梁溪区','新吴区','惠山区','锡山区','江阴市','宜兴市']

# 爬取某网页

def get_a_page(url,area):

    result = requests.get(url)

    doc = pq(result.text)

    ul = doc('.sellListContent')

    divs = ul.children('.clear .info.clear').items()

    count = 0

    realids=[]

    titles = []

    places = []

    msgs = []

    prices = []

    per_meters = []

    realarea=[]

    citys=[]

    for div in divs:

        count += 1

        realid=div.children('.address .priceInfo .unitPrice').attr('data-hid')

        title = div.children('.title a').text()

        place = div.children('.address .flood .positionInfo a').text()

        msg = div.children('.address .houseInfo').text()

        price = div.children('.address .priceInfo .totalPrice span').text()

        per_meter = div.children('.address .priceInfo .unitPrice span').text()

        city='无锡'

        dict = {

            'id':realid,

            'title': title,

            'place': place,

            'msg': msg,

            'price': price,

            'per_meter': per_meter,

            'area':areas[area],

            'city':'无锡'

        }

        realids.append(realid)

        titles.append(title)

        places.append(place)

        msgs.append(msg)

        prices.append(price)

        per_meters.append(per_meter)

        realarea.append(areas[area])

        citys.append(city)

        print(str(count) + ':' + json.dumps(dict, ensure_ascii=False))

    datas={

        'id':realids,

        'title': titles,

        'place': places,

        'msg': msgs,

        'price': prices,

        'per_meter': per_meters,

        'area':realarea,

        'city':citys

    }

    df = pd.DataFrame(data=datas, columns=columns)

    df.to_csv('wx'+time.strftime('%Y-%m-%d')+'.csv', mode='a', index=False, header=False)

if __name__ == '__main__':

    quyu=['binhu','liangxi','xinwu','huishan','xishan','jiangyinshi','yixingshi']

    index=0

    for qy in quyu:

        #print (index)

        #print (qy)

        for i in range(1, 20):

            get_a_page(f'https://wx.ke.com/ershoufang/{qy}/pg{i}tt9/',index)

        index=index+1

利用python爬取某壳的房产数据的更多相关文章

利用python爬取58同城简历数据
利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
利用python爬取城市公交站点
利用python爬取城市公交站点页面分析 https://guiyang.8684.cn/line1 爬虫我们利用requests请求,利用BeautifulSoup来解析,获取我们的站点数据.得 ...
利用Python爬取豆瓣电影
目标:使用Python爬取豆瓣电影并保存MongoDB数据库中我们先来看一下通过浏览器的方式来筛选某些特定的电影: 我们把URL来复制出来分析分析: https://movie.douban.com ...
没有内涵段子可以刷了，利用Python爬取段友之家贴吧图片和小视频(含源码)
由于最新的视频整顿风波,内涵段子APP被迫关闭,广大段友无家可归,但是最近发现了一个"段友"的app,版本更新也挺快,正在号召广大段友回家,如下图,有兴趣的可以下载看看(ps:我不 ...
利用Python爬取朋友圈数据，爬到你开始怀疑人生
人生最难的事是自我认知,用Python爬取朋友圈数据,让我们重新审视自己,审视我们周围的圈子. 文:朱元禄(@数据分析-jacky) 哲学的两大问题:1.我是谁?2.我们从哪里来? 本文 jacky试 ...
python 爬取天猫美的评论数据
笔者最近迷上了数据挖掘和机器学习,要做数据分析首先得有数据才行.对于我等平民来说,最廉价的获取数据的方法,应该是用爬虫在网络上爬取数据了.本文记录一下笔者爬取天猫某商品的全过程,淘宝上面的店铺也是类似 ...
利用python爬取海量疾病名称百度搜索词条目数的爬虫实现
实验原因: 目前有一个医疗百科检索项目,该项目中对关键词进行检索后,返回的结果很多,可惜结果的排序很不好,影响用户体验.简单来说,搜索出来的所有符合疾病中,有可能是最不常见的疾病是排在第一个的,而最有 ...
如何利用python爬取网易新闻
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: LSGOGroup PS:如有需要Python学习资料的小伙伴可以 ...
利用python爬取贝壳网租房信息
最近准备换房子,在网站上寻找各种房源信息,看得眼花缭乱,于是想着能否将基本信息汇总起来便于查找,便用python将基本信息爬下来放到excel,这样一来就容易搜索了. 1. 利用lxml中的xpath ...
利用Python爬取可用的代理IP
前言就以最近发现的一个免费代理IP网站为例:http://www.xicidaili.com/nn/.在使用的时候发现很多IP都用不了. 所以用Python写了个脚本,该脚本可以把能用的代理IP检测 ...

随机推荐

veriog之四位全加器
verilog之四位全加器 1.简易代码 module adder_4bit ( cout,sum,ina,inb,cin ); output[3:0] sum; output cout; input ...
浅谈 KingbaseES 和 SQLServer 中的 instead of 触发器
本文基于Kingbase和SqlServer的INSTEAD OF 触发器主要功能特点进行对比浅析,同时针对SqlServer 的INSTEAD OF 触发器提出了多种kingbase环境的等价代码方 ...
CSP2020-S 游记
10.11 CSP-S1 自从国庆假期回到学校我申请停课, 从此开始了长达近一个的停课生活. 初赛也是有惊无险地过去了. 一出来发现自己仍旧是大考必败型选手, 对了答案发现我其实错了挺多的, 可能是因 ...
OpenHarmony：4.0 Release版本的开发数据
OpenAtom OpenHarmony 4.0 Release版本于 10 月 27 日发布,经过了32周的开发周期.在此期间,有 65499 个 Committs 进入了版本.在这个周期内完成了 ...
JVM—垃圾收集器
JVM-垃圾收集器什么是垃圾没有被引用的对象就是垃圾. 怎么找到垃圾引用计数法当对象引用消失,对象就称为垃圾. 对象消失一个引用,计数减去一,当引用都消失了,计数就会变为0.此时这个对象就会变 ...
HarmonyOS—UI 开发性能提升的推荐方法
注:本文转载自 HarmonyOS 官网文档开发者若使用低性能的代码实现功能场景可能不会影响应用的正常运行,但却会对应用的性能造成负面影响.本章节列举出了一些可提升性能的场景供开发者参考,以避免应用 ...
【直播预告】HarmonyOS极客松赋能直播第二期：数据库与网络连接开发
NL2SQL进阶系列(1)：DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解
NL2SQL进阶系列(1):DB-GPT-Hub.SQLcoder.Text2SQL开源应用实践详解 NL2SQL基础系列(1):业界顶尖排行榜.权威测评数据集及LLM大模型(Spider vs BI ...
centos7搭建vsftpd环境详解[亲测成功]
centos7搭建vsftpd环境详解(亲测) 标签: centos7vsftpd 分类: linux相关(关于centos)(2) 版权声明:本文为博主原创文章,未经博主允许不得转载. 初学L ...
实战指南：使用 xUnit.DependencyInjection 在单元测试中实现依赖注入【完整教程】
引言上一篇我们创建了一个Sample.Api项目和Sample.Repository,并且带大家熟悉了一下Moq的概念,这一章我们来实战一下在xUnit项目使用依赖注入. Xunit.Depende ...

利用python爬取某壳的房产数据

利用python爬取某壳的房产数据的更多相关文章

随机推荐

热门专题