小白学 Python 爬虫（26）：为啥上海二手房你都买不起

人生苦短，我用 Python

前文传送门：

小白学 Python 爬虫（1）：开篇

小白学 Python 爬虫（2）：前置准备（一）基本类库的安装

小白学 Python 爬虫（3）：前置准备（二）Linux基础入门

小白学 Python 爬虫（4）：前置准备（三）Docker基础入门

小白学 Python 爬虫（5）：前置准备（四）数据库基础

小白学 Python 爬虫（6）：前置准备（五）爬虫框架的安装

小白学 Python 爬虫（7）：HTTP 基础

小白学 Python 爬虫（8）：网页基础

小白学 Python 爬虫（9）：爬虫基础

小白学 Python 爬虫（10）：Session 和 Cookies

小白学 Python 爬虫（11）：urllib 基础使用（一）

小白学 Python 爬虫（12）：urllib 基础使用（二）

小白学 Python 爬虫（13）：urllib 基础使用（三）

小白学 Python 爬虫（14）：urllib 基础使用（四）

小白学 Python 爬虫（15）：urllib 基础使用（五）

小白学 Python 爬虫（16）：urllib 实战之爬取妹子图

小白学 Python 爬虫（17）：Requests 基础使用

小白学 Python 爬虫（18）：Requests 进阶操作

小白学 Python 爬虫（19）：Xpath 基操

小白学 Python 爬虫（20）：Xpath 进阶

小白学 Python 爬虫（21）：解析库 Beautiful Soup（上）

小白学 Python 爬虫（22）：解析库 Beautiful Soup（下）

小白学 Python 爬虫（23）：解析库 pyquery 入门

小白学 Python 爬虫（24）：2019 豆瓣电影排行

小白学 Python 爬虫（25）：爬取股票信息

引言

看到题目肯定有同学会问，为啥不包含新房，emmmmmmmmmmm

说出来都是血泪史啊。。。

小编已经哭晕在厕所，那位同学赶紧醒醒，太阳还没下山呢。

别看不起二手房，说的好像大家都买得起一样。

分析

淡不多扯，先进入正题，目标页面的链接小编已经找好了：https://sh.lianjia.com/ershoufang/pg1/ 。

房源数量还是蛮多的么，今年正题房产行业不景气，据说房价都不高。

小编其实是有目的的，毕竟也来上海五年多了，万一真的爬出来的数据看到有合适，对吧，顺便也能帮大家探个路。

首先还是分析页面的链接信息，其实已经很明显了，在链接最后一栏有一个 pg1 ，小编猜应该是 page1 的意思，不信换成 pg2 试试看，很显然的么。

随便打开一个房屋页面进到内层页面，看下数据：

数据还是很全面的嘛，那详细数据就从这里取了。

顺便再看下详情页的链接：https://sh.lianjia.com/ershoufang/107102012982.html 。

这个编号从哪里来？

小编敢保证在外层列表页的 DOM 结构里肯定能找到。

这就叫老司机的直觉，秀不秀就完了。

撸代码

思想还是老思想，先将外层列表页的数据构建一个列表，然后通过循环那个列表爬取详情页，将获取到的数据写入 Mysql 中。

本篇所使用到的请求库和解析库还是 Requests 和 pyquery 。

别问为啥，问就是小编喜欢。

因为简单。

还是先定义一个爬取外层房源列表的方法：

def get_outer_list(maxNum):

    list = []

    for i in range(1, maxNum + 1):

        url = 'https://sh.lianjia.com/ershoufang/pg' + str(i)

        print('正在爬取的链接为： %s' %url)

        response = requests.get(url, headers=headers)

        print('正在获取第 %d 页房源' % i)

        doc = PyQuery(response.text)

        num = 0

        for item in doc('.sellListContent li').items():

            num += 1

            list.append(item.attr('data-lj_action_housedel_id'))

        print('当前页面房源共 %d 套' %num)

    return list

这里先获取房源的那个 id 编号列表，方便我们下一步进行连接的拼接，这里的传入参数是最大页数，只要不超过实际页数即可，目前最大页数是 100 页，这里最大也只能传入 100 。

房源列表获取到以后，接着就是要获取房源的详细信息，这次的信息量有点大，解析起来稍有费劲儿：

def get_inner_info(list):

    for i in list:

        try:

            response = requests.get('https://sh.lianjia.com/ershoufang/' + str(i) + '.html', headers=headers)

            doc = PyQuery(response.text)

            # 基本属性解析

            base_li_item = doc('.base .content ul li').remove('.label').items()

            base_li_list = []

            for item in base_li_item:

                base_li_list.append(item.text())

            # 交易属性解析

            transaction_li_item = doc('.transaction .content ul li').items()

            transaction_li_list = []

            for item in transaction_li_item:

                transaction_li_list.append(item.children().not_('.label').text())

            insert_data = {

                "id": i,

                "danjia": doc('.unitPriceValue').remove('i').text(),

                "zongjia": doc('.price .total').text() + '万',

                "quyu": doc('.areaName .info').text(),

                "xiaoqu": doc('.communityName .info').text(),

                "huxing": base_li_list[0],

                "louceng": base_li_list[1],

                "jianmian": base_li_list[2],

                "jiegou": base_li_list[3],

                "taoneimianji": base_li_list[4],

                "jianzhuleixing": base_li_list[5],

                "chaoxiang": base_li_list[6],

                "jianzhujiegou": base_li_list[7],

                "zhuangxiu": base_li_list[8],

                "tihubili": base_li_list[9],

                "dianti": base_li_list[10],

                "chanquan": base_li_list[11],

                "guapaishijian": transaction_li_list[0],

                "jiaoyiquanshu": transaction_li_list[1],

                "shangcijiaoyi": transaction_li_list[2],

                "fangwuyongtu": transaction_li_list[3],

                "fangwunianxian": transaction_li_list[4],

                "chanquansuoshu": transaction_li_list[5],

                "diyaxinxi": transaction_li_list[6]

            }

            cursor.execute(sql_insert, insert_data)

            conn.commit()

            print(i, '：写入完成')

        except:

            print(i, '：写入异常')

            continue

两个最关键的方法已经写完了，接下来看下小编的成果：

这个价格看的小编血压有点高。

果然还是我大魔都，不管几手房，价格看看就好。

小结

从结果可以看出来，链家虽然是说的有 6W 多套房子，实际上我们从页面上可以爬取到的拢共也就只有 3000 套，远没有达到我们想要的所有的数据。但是小编增加筛选条件，房源总数确实也是会变动的，应该是做了强限制，最多只能展示 100 页的数据，防止数据被完全爬走。

套路还是很深的，只要不把数据放出来，泥萌就不要想能爬到我的数据。对于一般用户而言，能看到前面的一些数据也足够了，估计也没几个人会翻到最后几页去看数据。

本篇的代码就到这里了，如果有需要获取全部代码的，可以访问代码仓库获取。

示例代码

本系列的所有代码小编都会放在代码管理仓库 Github 和 Gitee 上，方便大家取用。

示例代码-Github

示例代码-Gitee

小白学 Python 爬虫（26）：为啥上海二手房你都买不起的更多相关文章

小白学 Python 爬虫（29）：Selenium 获取某大型电商网站商品信息
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（30）：代理基础
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（31）：自己构建一个简单的代理池
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（32）：异步请求库 AIOHTTP 基础入门
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（33）：爬虫框架 Scrapy 入门基础（一）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（34）：爬虫框架 Scrapy 入门基础（二）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（35）：爬虫框架 Scrapy 入门基础（三） Selector 选择器
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（36）：爬虫框架 Scrapy 入门基础（四） Downloader Middleware
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（37）：爬虫框架 Scrapy 入门基础（五） Spider Middleware
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...

随机推荐

python3入门之基础语法
Python 是一个高层次的结合了解释性.编译性.互动性和面向对象的脚本语言.Python 的设计具有很强的可读性,相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他语言更有特色语法 ...
MySQL-第一篇认识MySQL
1.什么是mysql mysql是一种关系型数据库,是瑞典MySQL AB 公司开发,目前属于 Oracle 旗下产品. 2.mysql的安装下载mysql-installer-community- ...
方法重载（overload）与方法重写（override）
一.方法重载: 在同一个类中,允许存在一个及以上的同名方法,只要他们的参数列表不同(参数的个数或者参数的类型不同)即可.注意方法重载与返回值类型.访问权限修饰符.和抛出的异常无关.重载是在本类中,与继 ...
下载了包在node_modules中，但没有在package.json中保存该包信息。
发现安装了包,但没有在package.json中保存该包信息,而且没有创建package-lock.json. 经过测试,发现是使用cnpm的原因,使用npm安装不会出现这样的问题,(与cnpm版本无 ...
redis 命令大全
全局命令: 1.查看所有键:keys * 2.键总数:dbsize 3.检查键是否存在:exists key 4.删除键:del key [key ...] 5.键过期:expire key seco ...
SELECT INTO - 从一个查询的结果中创建一个新表
SYNOPSIS SELECT [ ALL | DISTINCT [ ON ( expression [, ...] ) ] ] * | expression [ AS output_name ] [ ...
218- VPX主板基于5VFX70T的3U VPX 光纤数据采集存储板
基于5VFX70T的3U VPX 光纤数据采集存储板 1.板卡概述本板卡是基于3U VPX架构,符合VITA46标准,实现了多种图形图像接口的采集与转换.图像数据的处理.宽带数据缓存.SATA存储主 ...
vue,一路走来（12）--父与子之间传参
今天想起一直没有记录父组件与子组件的传参问题,这在项目中一直用到. 父向子组件传参 Index.vue父组件中 <component-a :msgfromfa="(positionno ...
Linux 进程通信之：内存共享（Shared Memory）(转,好文章)
https://blog.csdn.net/afei__/article/details/84188548
phpstorm ftp不能连接服务器
环境: ubuntu phpstorm 问题一. 服务器ftp功能没有开启解决方法:在服务器上安装 ftp 服务 https://i.cnblogs.com/EditPosts.aspx?posti ...

小白学 Python 爬虫（26）：为啥上海二手房你都买不起

引言

分析

撸代码

小结

示例代码

小白学 Python 爬虫（26）：为啥上海二手房你都买不起的更多相关文章

随机推荐

热门专题