前言

去年年底,博主有购房的意愿,本来是打算在青岛市北购房,怎奈工作变动,意向转移到了李沧,坐等了半年以后,最终选择在红岛附近购置了期房。

也许一些知道青岛红岛的小伙伴会问我,为什么会跑到那鸟不拉屎的地方去买房子,目前只能是一个字:"赌、赌、赌",重要的事情说三遍。下面来分析一下,我为什么没有在李沧买。

爬取数据

爬取了2018年1月份到2019年3月底李沧二手房成交记录,数据仅限于链家,不代表李沧地区的全部数据,但是我觉得应该对大家有一定的参考意义。

创建基本的数据库:

CREATE TABLE `house` (
`id` int(10) unsigned NOT NULL AUTO_INCREMENT COMMENT '主键',
`url` varchar(50) NOT NULL COMMENT '网络访问地址',
`listed_price` double NOT NULL COMMENT '挂牌价格',
`completion_date` date NOT NULL COMMENT '成交日期',
`transaction_cycle` int(11) NOT NULL COMMENT '成交周期',
`modify_price` int(11) NOT NULL COMMENT '调价次数',
`square_metre` double NOT NULL COMMENT '建筑面积',
`unit_price` double NOT NULL COMMENT '单价',
`total_price` double NOT NULL COMMENT '总价',
`age_completion` int(11) NOT NULL COMMENT '建成年代',
`community_name` varchar(50) NOT NULL COMMENT '所在小区',
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8

爬取代码:

__author__ = "小柒"
__blog__ = "https://blog.52itstyle.vip/"
import requests
import time
# 导入文件操作库
import os
import re
import bs4
from bs4 import BeautifulSoup
import sys
from util.mysql_DBUtils import mysql # 写入数据库
def write_db(param):
try:
sql = "insert into house (url,listed_price,transaction_cycle,modify_price," \
"square_metre,unit_price,total_price,age_completion,community_name,completion_date) "
sql = sql + "VALUES(%(url)s,%(listed_price)s, %(transaction_cycle)s,%(modify_price)s,"
sql = sql + "%(square_metre)s,%(unit_price)s,%(total_price)s," \
"%(age_completion)s,%(community_name)s,%(completion_date)s)"
mysql.insert(sql, param)
except Exception as e:
print(e) # 主方法
def main():
# 给请求指定一个请求头来模拟chrome浏览器
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
'(KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}
page_max = 24
# 爬取地址
for i in range(1, int(page_max) + 1):
print("第几页:" + str(i))
if i == 1:
house = 'https://qd.lianjia.com/chengjiao/licang/'
else:
house = 'https://qd.lianjia.com/chengjiao/licang/pg'+str(i)
res = requests.get(house, headers=headers)
soup = BeautifulSoup(res.text, 'html.parser')
li_max = soup.find('ul', class_='listContent').find_all('li')
for li in li_max:
try:
house_param = {}
# 所在小区
community = li.find('div', class_='title').text
community_name = community.split(" ")[0]
house_param['community_name'] = community_name
# 成交地址
title_src = li.find('a').attrs['href']
house_param['url'] = title_src
res = requests.get(title_src, headers=headers)
soup = BeautifulSoup(res.text, 'html.parser')
# --------------------------------------------------------#
# 成交日期
completion_date = soup.find('div', class_='house-title').find('span').text
completion_date = completion_date.split(" ")[0]
completion_date = completion_date.replace(".", "-")
house_param['completion_date'] = completion_date
# 挂牌价格
listed_price = soup.find('div', class_='msg').find_all('span')[0].find('label').text
house_param['listed_price'] = listed_price
# 成交周期
transaction_cycle = soup.find('div', class_='msg').find_all('span')[1].find('label').text
house_param['transaction_cycle'] = transaction_cycle
# 调价次数
modify_price = soup.find('div', class_='msg').find_all('span')[2].find('label').text
house_param['modify_price'] = modify_price
# 建筑面积
square_metre = soup.find('div', class_='content').find("ul").find_all('li')[2].text
square_metre = re.findall(r'-?\d+\.?\d*e?-?\d*?', square_metre)[0]
house_param['square_metre'] = square_metre
# 总价
total_price = soup.find('span', class_='dealTotalPrice').find('i').text
house_param['total_price'] = total_price
# 单价
unit_price = soup.find('b').text
house_param['unit_price'] = unit_price
# 建筑年代
age_completion = soup.find('div', class_='content').find("ul").find_all('li')[7].text
age_completion = re.findall(r'-?\d+\.?\d*e?-?\d*?', age_completion)[0]
house_param['age_completion'] = age_completion
write_db(house_param)
except Exception as e:
print(e)
mysql.end("commit")
mysql.dispose() if __name__ == '__main__':
main()

通过数据爬取,一共找到了706套二手成交房。

分析数据

直奔主题,数据分析下,大家比较关心的价格问题,以下是2019年1月-3月的二手房成交量以及成交价格:

位置 成交量 单价
李沧 124 21100

同比去年的二手房成交量以及成交价格:

位置 成交量 单价
李沧 277 21306

吓的博主赶紧用计算器认认真真,仔仔细细的核算了三遍,才敢写下这几个数字,同比去年,单价整整降了206人民币,此处有掌声。再看一下成交量,相比去年少了足足一半之多,相信那124套房子也是卖家忍痛降了206人民币才卖出去的吧!

好了,再看一下大家比较关心的成交周期,2019年1月-3月的二手房成交量以及成交周期:

位置 成交量 成交周期(天)
李沧 124 96

同比去年的二手房成交量以及成交周期:

位置 成交量 成交周期(天)
李沧 277 83

不得不说,相比去年房子的确是难卖了。

小结

很多同事,同学,13、14年就已经上车了,那时李沧1w不到,再看看现在?不想看,没眼看,不能看。最终没在李沧买房,也不是买不起,只是看不到降的希望,相对压力又大一些,而且,也不想把家庭所有的积蓄都赌在这里。

最后,对于刚需就是一个建议,买早买,有房和没房看一个城市是不一样的,努力赚钱的最大意义就是提升你的幸福感。活在人间不食人间烟火?真以为自己是神仙?有些东西一说的实际一点真的是会伤到某些人的心,祝你们用键盘战胜一切。

相关代码:https://gitee.com/52itstyle/Python

我用Python爬取了李沧最近一年多的二手房成交数据得出以下结论的更多相关文章

  1. Python爬取《你好李焕英》豆瓣短评并基于SnowNLP做情感分析

    爬取过程在这里: Python爬取你好李焕英豆瓣短评并利用stylecloud制作更酷炫的词云图 本文基于前文爬取生成的douban.txt,基于SnowNLP做情感分析. 依赖库: 豆瓣镜像比较快: ...

  2. Python爬取豆瓣电影top

    Python爬取豆瓣电影top250 下面以四种方法去解析数据,前面三种以插件库来解析,第四种以正则表达式去解析. xpath pyquery beaufifulsoup re 爬取信息:名称  评分 ...

  3. python爬取《龙岭迷窟》的数据,看看质量剧情还原度到底怎么样

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:简单 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行 ...

  4. Python 爬取所有51VOA网站的Learn a words文本及mp3音频

    Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...

  5. python爬取网站数据

    开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题 因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...

  6. python爬取某个网页的图片-如百度贴吧

    python爬取某个网页的图片-如百度贴吧 作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...

  7. Python:爬取乌云厂商列表,使用BeautifulSoup解析

    在SSS论坛看到有人写的Python爬取乌云厂商,想练一下手,就照着重新写了一遍 原帖:http://bbs.sssie.com/thread-965-1-1.html #coding:utf- im ...

  8. 使用python爬取MedSci上的期刊信息

    使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...

  9. python爬取免费优质IP归属地查询接口

    python爬取免费优质IP归属地查询接口 具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地 刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就o ...

随机推荐

  1. Math类中round、ceil和floor方法的功能

    Java中的Math工具类用来完成除+.-.*./.%等基本运算以外的复杂运算,位于java.lang包下,Math类的构造器全是私有的(private),因此无法创建Math类的对象,Math类的方 ...

  2. MYSQL的group by笔记

    对应的表数据如下 现在的需求是要找出dcid为9951,9957,9064共同拥有的good_code. 第一种方案是 SELECT a.good_code FROM ( SELECT good_co ...

  3. 03 JVM 从入门到实战 | 简述垃圾回收算法

    引言 之前我们学习了 JVM 基本介绍 以及 什么样的对象需要被 GC ,今天就来学习一下 JVM 在判断出一个对象需要被 GC 会采用何种方式进行 GC.在学习 JVM 如何进行垃圾回收方法时,发现 ...

  4. 从壹开始微服务 [ DDD ] 之七 ║项目第一次实现 & CQRS初探

    前言 哈喽大家周五好,我们又见面了,感谢大家在这个周五读我的文章,经过了三周的时间,当然每周两篇的速度的情况下,咱们简单说了下DDD领域驱动设计的第一部分,主要包括了,<项目入门DDD架构浅析& ...

  5. 用ASP.NET Core 2.1 建立规范的 REST API -- 缓存和并发

    本文所需的一些预备知识可以看这里: http://www.cnblogs.com/cgzl/p/9010978.html 和 http://www.cnblogs.com/cgzl/p/9019314 ...

  6. Google 工程师:为什么 CDN 对移动客户端加速“没有”效果

    王者荣耀是近两年来比较火的手游,不少小伙伴都有玩过.玩这个游戏最怕的不是遇到猪一般的队友,也不是怕遇到神一样的对手.最让我们感到害怕和绝望的是,团战爆发时,而你 460 了.460 是一个玩家常用的词 ...

  7. Redis学习笔记~分布锁的使用

    回到目录 分布锁主要用在多进程共同访问同一个资源时候,用来保持同一时间段只能有一个进程执行,同时避免了并发冲突的出现,这在很多场景都会用到,像秒杀库存,抽奖库存,多操作者处理一家公司等. void T ...

  8. 1.2环境安装「深入浅出ASP.NET Core系列」

    官网 在介绍安装环境之前,先介绍周边信息,比如微软net官网. https://www.microsoft.com/net 这个网站是学习微软技术栈比较权威的地方,包括环境下载,学习,架构,文档,社区 ...

  9. Unity MMORPG游戏开发教程(一)——初识Unity

    五邑隐侠,本名关健昌,10年游戏生涯,现隐居五邑.本系列文章以C#为介绍语言,基于Unity2017.4.x. 一.环境搭建 我使用的是Unity+VSCode,用的是mac系统,windows的自己 ...

  10. 整合 MyPerf4J 做Java性能监控和统计工具

    快速启动MyPerf4J MyPerf4J 采用 JavaAgent 配置方式,透明化接入应用,对应用代码完全没有侵入. 打包 项目地址: https://github.com/LinShunKang ...