Python数据采集分析告诉你为何上海二手房你都买不起

感谢关注Python爱好者社区公众号，在这里，我们会每天向您推送Python相关的文章实战干货。

来吧，一起Python。

对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tstoutiao，邀请你进入头条数据爱好者交流群，数据爱好者们都在这儿。

1.前言

本人是个学生党，在过两年就要研究生毕业了，面临着找工作，相信很多人也面临或者经历过工作，定居租房买房之类的

在此，我们来采集一下上海在售的二手房信息，有人想问，为啥不采集新房？快醒醒吧，新房可远观而不可亵玩焉，一般人都买不起，看的只会心情不好，hhhh

当然，二手房估计你也买不起！咱们拿数据说话！

2.观察网站结构

以本人所在的城市上海为例，走在上海的大街小巷，你会看到很多做房产中介的，最常见的就是链家了~

我们进一下链家的上海二手房页面

http://sh.lianjia.com/ershoufang/?utm_source=360&utm_medium=cpp&utm_term=链家二手房交易&utm_content=链家二手房&utm_campaign=品牌词

有81508套二手房源在出售，这么多！

3.寻找需要爬取信息

感觉这些红色框的我都想要，但是感觉还是不够全面，我们点击进去看看详细信息。

这里面的信息挺全的，当然，我根据需要的数据（可能之后分析需要用到）来选择爬取的数据

分析网页结构在我之前的文章里有写到，就不赘述了

传送门：

Python网络爬虫爬取智联招聘职位：https://ask.hellobi.com/blog/wangdawei/6710

爬取起点中文网月票榜前500名网络小说介绍：https://ask.hellobi.com/blog/wangdawei/7285

4.撰写爬虫#主要程序

importrequests

importre

frombs4importBeautifulSoup

fromfake_useragentimportUserAgent

ua=UserAgent()#使用随机header，模拟人类

headers1={'User-Agent':'ua.random'}#使用随机header，模拟人类

houseary=[]#建立空列表放房屋信息

domain='http://sh.lianjia.com'#为了之后拼接子域名爬取详细信息

foriinrange(1,400):#爬取399页，想爬多少页直接修改替换掉400，不要超过总页数就好

res=requests.get('http://sh.lianjia.com/ershoufang/d'+str(i),headers=headers1)#爬取拼接域名

soup=BeautifulSoup(res.text,'html.parser')#使用html筛选器

#print(soup)

forjinrange(0,29):#网站每页呈现30条数据，循环爬取

url1=soup.select('.prop-titlea')[j]['href']#选中class=prop-title下的a标签里的第j个元素的href子域名内容

url=domain+url1#构造子域名

houseary.append(gethousedetail1(url,soup,j))#传入自编函数需要的参数defgethousedetail1(url,soup,j):#定义函数，目标获得子域名里的房屋详细信息

info={}#构造字典，作为之后的返回内容

s=soup.select('.info-cola')[1+3*j]#通过传入的j获取所在区的内容

pat='(.*?)'#构造提取正则

info['所在区']=''.join(list(re.compile(pat).findall(str(s))))#使用join将提取的列表转为字符串

s1=soup.select('.info-cola')[0+3*j]#[0].text.strip()

pat1='(.*?)'

info['具体地点']=''.join(list(re.compile(pat1).findall(str(s1))))

s2=soup.select('.info-cola')[2+3*j]#[0].text.strip()

pat2='(.*?)'

info['位置']=''.join(list(re.compile(pat2).findall(str(s2))))

q=requests.get(url)#使用子域名

soup=BeautifulSoup(q.text,'html.parser')#提取子域名内容,即页面详细信息

forddinsoup.select('.contentli'):#提取class=content标签下的li标签房屋信息

a=dd.get_text(strip=True)#推荐的去空格方法，比strip（）好用

if'：'ina:#要有冒号的，用中文的冒号，因为网页中是中文

key,value=a.split('：')#根据冒号切分出键和值

info[key]=value

info['总价']=soup.select('.bold')[0].text.strip()#提取总价信息

returninfo#传回这一个页面的详细信息

我们来看一下爬的结果：

houseary#看一下列表信息

就是将每次爬取的信息做成dict依次添加在list中

接下来使用pandas神器~

importpandas#pandas大法好df=pandas.DataFrame(houseary)df

考虑到主程序写了双重for循环，函数里写了循环，所以时间复杂度是O（n^3）,对于一个算法，一般是不可以接受的，好吧，萌萌的我只能接受，如果你问我为什么，我只能说，我写不出低复杂度的了。。。爬了这1w+条数据用了我1小时时间。。。各位dalao如果有方法可以指点一下，之后我想学习多线程提高爬取速度~027yeshenghuowang.com

最后存到本地excel文件中

df.to_excel('house_lianjia.xlsx')

5.结语

看到这价格是不是有句mmp想说

之后会写一篇《Python数据采集分析告诉你为何上海二手房你都买不起！（二）》的数据分析和可视化的文章深入分析一下这次抓到的数据~敬请期待，么么哒

Python数据采集分析告诉你为何上海二手房你都买不起的更多相关文章

小白学 Python 爬虫（26）：为啥上海二手房你都买不起
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
上海二手房8月排名：链家、悟空找房、中原、太平洋、我爱我家、易居、房天下、iwjw、房多多、房好多、q房网、、、
房产网站总结链家: 悟空找房: 中原: 太平洋: 我爱我家: 易居: 房天下: iwjw:有较多二手房信息链家称王房多多领跑电商平台近日,云房数据公布了8月上海房产中介成交数据,从排行榜来看, ...
Python股票分析系列——基础股票数据操作（二）.p4
该系列视频已经搬运至bilibili: 点击查看欢迎来到Python for Finance教程系列的第4部分.在本教程中,我们将基于Adj Close列创建烛台/ OHLC图,这将允许我介绍重新采 ...
Python性能分析指南
http://www.admin10000.com/document/2861.html 尽管并非每个你写的Python程序都需要严格的性能分析,但了解一下Python的生态系统中很多优秀的在你需要做 ...
Python股票分析系列——自动获取标普500股票列表.p5
该系列视频已经搬运至bilibili: 点击查看欢迎来到Python for Finance教程系列的第5部分.在本教程和接下来的几节中,我们将着手研究如何为更多公司提供大量的定价信息,以及如何一次 ...
Python股票分析系列——基础股票数据操作（一）.p3
该系列视频已经搬运至bilibili: 点击查看欢迎来到Python for Finance教程系列的第3部分.在本教程中,我们将使用我们的股票数据进一步分解一些基本的数据操作和可视化.我们将要使用 ...
Python股票分析系列——数据整理和绘制.p2
该系列视频已经搬运至bilibili: 点击查看欢迎来到Python for Finance教程系列的第2部分. 在本教程中,我们将利用我们的股票数据进一步分解一些基本的数据操作和可视化. 我们将要 ...
Python股票分析系列——系列介绍和获取股票数据.p1
本系列转载自youtuber sentdex博主的教程视频内容 https://www.youtube.com/watch?v=19yyasfGLhk&index=4&list=PLQ ...
【转】python模块分析之collections（六）
[转]python模块分析之collections(六) collections是Python内建的一个集合模块,提供了许多有用的集合类. 系列文章 python模块分析之random(一) pyth ...

随机推荐

Vue父子传值
昨天创建完项目以后,今日首先使用项目来做一个简单的导航栏体会一下Vue的使用 1.项目的结构: 2.首先在Vheader.Vue中编辑代码: <template> <header c ...
【kindle笔记】之《黑客微百科》-2018-6-17
前段时间复习六级的时候,从图书馆看到一本书,然后带回来了.今天开始读.今天是2018年6月17日. 严格来讲,一本不算kindle笔记的笔记,不过广义的啃豆笔记了解一下.哈哈. 首页说到的黑客理念是: ...
JEECG & JEESite Tomcat集群 Session共享
多台tomcat服务的session共享 memcached与redis - JEECG开源社区 - CSDN博客https://blog.csdn.net/zhangdaiscott/article ...
linux虚拟机桥接网络配置
版权声明:经验之谈,不知能否换包辣条,另,转载请注明出处. https://blog.csdn.net/zhezhebie/article/details/75035997 前言:我是最小化安装cen ...
springboot注解@SpringBootApplication分析
@SpringBootApplication注解用在Spring Boot的入口类上面,是Spring Boot提供的应用启动相关的注解. 直接上注解的源码: @Target(ElementType. ...
spring后置处理器BeanPostProcessor
BeanPostProcessor的作用是在调用初始化方法的前后添加一些逻辑,这里初始化方法是指在配置文件中配置init-method,或者实现了InitializingBean接口的afterPro ...
爬取B站视频
先安装you_get pip install you_get 爬取代码,爬了个ASMR的,学习困了自我催眠 import sys from you_get import common as you_g ...
java学习之—链表（4）
/** * 使用链表实现队列 * Create by Administrator * 2018/6/19 0019 * 下午 4:37 **/ public class Link { public l ...
git分支操作2
1.创建分支 git branch <分支名> 会自动复制主分支上的代码. 2.查看当前分支 git branch -v 3.切换分支 git checkout < ...
SimpleChannelInboundHandler与ChannelInboundHandlerAdapter
参考https://blog.csdn.net/u011262847/article/details/78713881 每一个Handler都一定会处理出站或者入站(也可能两者都处理)数据,例如对于入 ...

Python数据采集分析告诉你为何上海二手房你都买不起

Python数据采集分析告诉你为何上海二手房你都买不起的更多相关文章

随机推荐

热门专题