Python爬虫入门教程 23-100 石家庄链家租房数据抓取

1. 写在前面

作为一个活跃在京津冀地区的开发者，要闲着没事就看看石家庄这个国际化大都市的一些数据，这篇博客爬取了链家网的租房信息，爬取到的数据在后面的博客中可以作为一些数据分析的素材。

我们需要爬取的网址为：https://sjz.lianjia.com/zufang/

2. 分析网址

首先确定一下，哪些数据是我们需要的

可以看到，黄色框就是我们需要的数据。

接下来，确定一下翻页规律

https://sjz.lianjia.com/zufang/pg1/

https://sjz.lianjia.com/zufang/pg2/

https://sjz.lianjia.com/zufang/pg3/

https://sjz.lianjia.com/zufang/pg4/

https://sjz.lianjia.com/zufang/pg5/

...

https://sjz.lianjia.com/zufang/pg80/

3. 解析网页

有了分页地址，就可以快速把链接拼接完毕，我们采用lxml模块解析网页源码，获取想要的数据。

本次编码使用了一个新的模块 fake_useragent ，这个模块，可以随机的去获取一个UA（user-agent），模块使用比较简单，可以去百度百度就很多教程。

本篇博客主要使用的是调用一个随机的UA

self._ua = UserAgent()

self._headers = {"User-Agent": self._ua.random}  # 调用一个随机的UA

由于可以快速的把页码拼接出来，所以采用协程进行抓取，写入csv文件采用的pandas模块

from fake_useragent import UserAgent

from lxml import etree

import asyncio

import aiohttp

import pandas as pd

class LianjiaSpider(object):

    def __init__(self):

        self._ua = UserAgent()

        self._headers = {"User-Agent": self._ua.random}

        self._data = list()

    async def get(self,url):

        async with aiohttp.ClientSession() as session:

            try:

                async with session.get(url,headers=self._headers,timeout=3) as resp:

                    if resp.status==200:

                        result = await resp.text()

                        return result

            except Exception as e:

                print(e.args)

    async def parse_html(self):

        for page in range(1,77):

            url = "https://sjz.lianjia.com/zufang/pg{}/".format(page)

            print("正在爬取{}".format(url))

            html = await self.get(url)   # 获取网页内容

            html = etree.HTML(html)  # 解析网页

            self.parse_page(html)   # 匹配我们想要的数据

            print("正在存储数据....")

            ######################### 数据写入

            data = pd.DataFrame(self._data)

            data.to_csv("链家网租房数据.csv", encoding='utf_8_sig')   # 写入文件

            ######################### 数据写入

    def run(self):

        loop = asyncio.get_event_loop()

        tasks = [asyncio.ensure_future(self.parse_html())]

        loop.run_until_complete(asyncio.wait(tasks))

if __name__ == '__main__':

    l = LianjiaSpider()

    l.run()

上述代码中缺少一个解析网页的函数，我们接下来把他补全

    def parse_page(self,html):

        info_panel = html.xpath("//div[@class='info-panel']")

        for info in info_panel:

            region = self.remove_space(info.xpath(".//span[@class='region']/text()"))

            zone = self.remove_space(info.xpath(".//span[@class='zone']/span/text()"))

            meters = self.remove_space(info.xpath(".//span[@class='meters']/text()"))

            where = self.remove_space(info.xpath(".//div[@class='where']/span[4]/text()"))

            con = info.xpath(".//div[@class='con']/text()")

            floor = con[0]  # 楼层

            type = con[1]   # 样式

            agent = info.xpath(".//div[@class='con']/a/text()")[0]

            has = info.xpath(".//div[@class='left agency']//text()")

            price = info.xpath(".//div[@class='price']/span/text()")[0]

            price_pre =  info.xpath(".//div[@class='price-pre']/text()")[0]

            look_num = info.xpath(".//div[@class='square']//span[@class='num']/text()")[0]

            one_data = {

                "region":region,

                "zone":zone,

                "meters":meters,

                "where":where,

                "louceng":floor,

                "type":type,

                "xiaoshou":agent,

                "has":has,

                "price":price,

                "price_pre":price_pre,

                "num":look_num

            }

            self._data.append(one_data)  # 添加数据

不一会，数据就爬取的差不多了。

Python爬虫入门教程 23-100 石家庄链家租房数据抓取的更多相关文章

Python爬虫入门教程石家庄链家租房数据抓取
1. 写在前面这篇博客爬取了链家网的租房信息,爬取到的数据在后面的博客中可以作为一些数据分析的素材.我们需要爬取的网址为:https://sjz.lianjia.com/zufang/ 2. 分析网 ...
Python爬虫入门教程 24-100 微医挂号网医生数据抓取
1. 写在前面今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的一些分析类的教程做 ...
Python爬虫入门教程 39-100 天津市科技计划项目成果库数据抓取 scrapy
爬前叨叨缘由今天本来没有打算抓取这个网站的,无意中看到某个微信群有人问了一嘴这个网站,想看一下有什么特别复杂的地方,一顿操作下来,发现这个网站除了卡慢,经常自己宕机以外,好像还真没有什么特殊的.. ...
Python爬虫入门教程 33-100 《海王》评论数据抓取 scrapy
1. 海王评论数据爬取前分析海王上映了,然后口碑炸了,对咱来说,多了一个可爬可分析的电影,美哉~ 摘录一个评论零点场刚看完,温导的电影一直很不错,无论是速7,电锯惊魂还是招魂都很棒.打斗和音效方面 ...
Python爬虫入门教程 4-100 美空网未登录图片爬取
美空网未登录图片----简介上一篇写的时间有点长了,接下来继续把美空网的爬虫写完,这套教程中编写的爬虫在实际的工作中可能并不能给你增加多少有价值的技术点,因为它只是一套入门的教程,老鸟你自动绕过就可 ...
Python爬虫入门教程 13-100 斗图啦表情包多线程爬取
斗图啦表情包多线程爬取-写在前面今天在CSDN博客,发现好多人写爬虫都在爬取一个叫做斗图啦的网站,里面很多表情包,然后瞅了瞅,各种实现方式都有,今天我给你实现一个多线程版本的.关键技术点 aioht ...
Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分
1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应 ...
Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分
1. Python爬虫入门教程爬取背景 2019年1月10日深夜,打开了百思不得姐APP,想了一下是否可以爬呢?不自觉的安装到了夜神模拟器里面.这个APP还是比较有名和有意思的. 下面是百思不得姐的 ...
python爬虫入门02：教你通过 Fiddler 进行手机抓包
哟~哟~哟~ hi起来 everybody 今天要说说怎么在我们的手机抓包通过 python爬虫入门01:教你在Chrome浏览器轻松抓包我们知道了 HTTP 的请求方式以及在 Chrome 中 ...

随机推荐

java笔记：排错5：误删maven target:恢复不了，怎么再生成
上篇讲过,误删maven项目的target,或clean以后,target文件夹会删掉. 想要重新加载模块生成最新的target目录,可以再跑一下tomcat. 但有时不灵,可能是因为Tomcat本身 ...
hcna(华为)_Telnet篇
Telnet提供了一个交互式操作界面,允许终端远程登录到任何可以充当 Telnet服务器的设备.Telnet用户可以像通过Console口本地登录一样对设备进行操作.远端Telnet服务器和终端之间 ...
安装JAVA jdk
下载软件包,jdk-10.0.1_windows-x64_bin 根据提示一步步安装.安装完成之后,配置环境. 控制面板——>系统——>编辑系统变量 4. 系统变量增加path变 ...
H5本地存储详细使用教程（localStorage + JSON数据存储应用框架）
一.Web Storage教程 1.概述: 对于Web Storage来说,实际上是Cookies存储的进化版.如果了解Cookie的人几乎一看Web Storage就会用,如果你从来没用过没了解过C ...
pygame学习
http://eyehere.net/2011/python-pygame-novice-professional-3/ http://www.pygame.org/docs/ref/event.ht ...
Charles抓包软件简介
Charles简介: Charles是一款抓包神器,因为他是基于 java 开发的,所以跨平台,Mac.Linux.Window下都是可以使用的,确保安装之前已经安装了JDK.Charles官网地址: ...
详谈kafka的深入浅出
第一:kafka的介绍,kafka官网:http://kafka.apache.org/ http://www.jasongj.com/2015/03/10/KafkaColumn1/ kafka的简 ...
反编译python打包的exe文件
目录 1.前言 2.使用环境 3.还原过程 4.号外 5.exe文件和所用到的反编译工具 6.参考 7.去签名(补漏) 前言拿到了利用驱动人生进行传播的病毒样本,发现是python打包成的exe文件 ...
SpringAop注解实现日志的存储
一.介绍 1.AOP的作用在OOP中,正是这种分散在各处且与对象核心功能无关的代码(横切代码)的存在,使得模块复用难度增加.AOP则将封装好的对象剖开,找出其中对多个对象产生影响的公共行为,并将其封 ...
threejs立方体贴图产生边缘锯齿问题
threejs立方体贴图产生边缘锯齿问题立方体贴图边缘锯齿解决后经过试验测试发现, textureGrass.wrapS和 textureGrass.wrapT属性导致的. 解决方法1: 删掉t ...