Python爬虫入门教程石家庄链家租房数据抓取

1. 写在前面

这篇博客爬取了链家网的租房信息，爬取到的数据在后面的博客中可以作为一些数据分析的素材。
我们需要爬取的网址为：https://sjz.lianjia.com/zufang/

2. 分析网址

首先确定一下，哪些数据是我们需要的

可以看到，黄色框就是我们需要的数据。

接下来，确定一下翻页规律

https://sjz.lianjia.com/zufang/pg1/

https://sjz.lianjia.com/zufang/pg2/

https://sjz.lianjia.com/zufang/pg3/

https://sjz.lianjia.com/zufang/pg4/

https://sjz.lianjia.com/zufang/pg5/

...

https://sjz.lianjia.com/zufang/pg80/

3. 解析网页

有了分页地址，就可以快速把链接拼接完毕，我们采用lxml模块解析网页源码，获取想要的数据。

本次编码使用了一个新的模块 fake_useragent ，这个模块，可以随机的去获取一个UA（user-agent），模块使用比较简单，可以去百度百度就很多教程。

本篇博客主要使用的是调用一个随机的UA

self._ua = UserAgent()

self._headers = {"User-Agent": self._ua.random}  # 调用一个随机的UA

由于可以快速的把页码拼接出来，所以采用协程进行抓取，写入csv文件采用的pandas模块

from fake_useragent import UserAgent

from lxml import etree

import asyncio

import aiohttp

import pandas as pd

class LianjiaSpider(object):

    def __init__(self):

        self._ua = UserAgent()

        self._headers = {"User-Agent": self._ua.random}

        self._data = list()

    async def get(self,url):

        async with aiohttp.ClientSession() as session:

            try:

                async with session.get(url,headers=self._headers,timeout=3) as resp:

                    if resp.status==200:

                        result = await resp.text()

                        return result

            except Exception as e:

                print(e.args)

    async def parse_html(self):

        for page in range(1,77):

            url = "https://sjz.lianjia.com/zufang/pg{}/".format(page)

            print("正在爬取{}".format(url))

            html = await self.get(url)   # 获取网页内容

            html = etree.HTML(html)  # 解析网页

            self.parse_page(html)   # 匹配我们想要的数据

            print("正在存储数据....")

            ######################### 数据写入

            data = pd.DataFrame(self._data)

            data.to_csv("链家网租房数据.csv", encoding='utf_8_sig')   # 写入文件

            ######################### 数据写入

    def run(self):

        loop = asyncio.get_event_loop()

        tasks = [asyncio.ensure_future(self.parse_html())]

        loop.run_until_complete(asyncio.wait(tasks))

if __name__ == '__main__':

    l = LianjiaSpider()

    l.run()

上述代码中缺少一个解析网页的函数，我们接下来把他补全

def parse_page(self,html):

        info_panel = html.xpath("//div[@class='info-panel']")

        for info in info_panel:

            region = self.remove_space(info.xpath(".//span[@class='region']/text()"))

            zone = self.remove_space(info.xpath(".//span[@class='zone']/span/text()"))

            meters = self.remove_space(info.xpath(".//span[@class='meters']/text()"))

            where = self.remove_space(info.xpath(".//div[@class='where']/span[4]/text()"))

            con = info.xpath(".//div[@class='con']/text()")

            floor = con[0]  # 楼层

            type = con[1]   # 样式

            agent = info.xpath(".//div[@class='con']/a/text()")[0]

            has = info.xpath(".//div[@class='left agency']//text()")

            price = info.xpath(".//div[@class='price']/span/text()")[0]

            price_pre =  info.xpath(".//div[@class='price-pre']/text()")[0]

            look_num = info.xpath(".//div[@class='square']//span[@class='num']/text()")[0]

            one_data = {

                "region":region,

                "zone":zone,

                "meters":meters,

                "where":where,

                "louceng":floor,

                "type":type,

                "xiaoshou":agent,

                "has":has,

                "price":price,

                "price_pre":price_pre,

                "num":look_num

            }

            self._data.append(one_data)  # 添加数据

不一会，数据就爬取的差不多了。

Python爬虫入门教程石家庄链家租房数据抓取的更多相关文章

Python爬虫入门教程 23-100 石家庄链家租房数据抓取
1. 写在前面作为一个活跃在京津冀地区的开发者,要闲着没事就看看石家庄这个国际化大都市的一些数据,这篇博客爬取了链家网的租房信息,爬取到的数据在后面的博客中可以作为一些数据分析的素材. 我们需要爬取 ...
Python爬虫入门教程 30-100 高考派大学数据抓取 scrapy
1. 高考派大学数据----写在前面终于写到了scrapy爬虫框架了,这个框架可以说是python爬虫框架里面出镜率最高的一个了,我们接下来重点研究一下它的使用规则. 安装过程自己百度一下,就能找到 ...
Python爬虫入门教程 31-100 36氪(36kr)数据抓取 scrapy
1. 36氪(36kr)数据----写在前面今天抓取一个新闻媒体,36kr的文章内容,也是为后面的数据分析做相应的准备的,预计在12月底,爬虫大概写到50篇案例的时刻,将会迎来一个新的内容,系统的数 ...
Python爬虫入门教程 22-100 CSDN学院课程数据抓取
1. CSDN学院课程数据-写在前面今天又要抓取一个网站了,选择恐惧症使得我不知道该拿谁下手,找来找去,算了,还是抓取CSDN学院吧,CSDN学院的网站为 https://edu.csdn.net/ ...
Python爬虫入门教程 20-100 慕课网免费课程抓取
写在前面美好的一天又开始了,今天咱继续爬取IT在线教育类网站,慕课网,这个平台的数据量并不是很多,所以爬取起来还是比较简单的准备爬取打开我们要爬取的页面,寻找分页点和查看是否是异步加载的数据. ...
Python爬虫入门教程 3-100 美空网数据爬取
美空网数据----简介从今天开始,我们尝试用2篇博客的内容量,搞定一个网站叫做"美空网"网址为:http://www.moko.cc/, 这个网站我分析了一下,我们要爬取的图片在 ...
Python爬虫入门教程 12-100 半次元COS图爬取
半次元COS图爬取-写在前面今天在浏览网站的时候,忽然一个莫名的链接指引着我跳转到了半次元网站 https://bcy.net/ 打开之后,发现也没有什么有意思的内容,职业的敏感让我瞬间联想到了 c ...
Python爬虫入门教程 10-100 图虫网多线程爬取
图虫网-写在前面经历了一顿噼里啪啦的操作之后,终于我把博客写到了第10篇,后面,慢慢的会涉及到更多的爬虫模块,有人问scrapy 啥时候开始用,这个我预计要在30篇以后了吧,后面的套路依旧慢节奏的, ...
Python爬虫入门教程： All IT eBooks多线程爬取
All IT eBooks多线程爬取-写在前面对一个爬虫爱好者来说,或多或少都有这么一点点的收集癖 ~ 发现好的图片,发现好的书籍,发现各种能存放在电脑上的东西,都喜欢把它批量的爬取下来. 然后放着 ...

随机推荐

微信小程序报Cannot read property 'setData' of undefined的错误
最近在学习微信小程序的开发,让我吐槽的是,都9102年了,怎么还是有有时不能复制,有时不能打中文的bug呢,这个时候,你可以Ctrl+shift+w一下,如果还不行,那就得重启了.. 进入正题吧,刚在 ...
[LeetCode] Z字型变换
题目内容: 将字符串 "PAYPALISHIRING" 以Z字形排列成给定的行数: P A H N A P L S I I G Y I R 之后从左往右,逐行读取字符:" ...
netcore高性能Web服务器Kestrel分析
Kestrel是aspnetcore中的web服务器之一,其本身有跨平台,轻量级,高性能的特点在 ryzen 1600 12核cpu 测试环境中,瞬间每秒处理请求数能达到2w5以上,与netty不相 ...
(转)Python的web服务器
1.浏览器请求动态页面过程 2.WSGI Python Web Server Gateway Interface (或简称 WSGI,读作“wizgy”). WSGI允许开发者将选择web框架和web ...
fastjson的JSONArray转化为泛型列表
背景:一个复杂结构体内部可能有array的数据,例如:{name:"test",cities:[{name:"shanghai",area:1,code:200 ...
python中@staticmethod与@classmethod
@ 首先这里介绍一下‘@’的作用,‘@’用作函数的修饰符,是python2.4新增的功能,修饰符必须出现在函数定义前一行,不允许和函数定义在同一行.只可以对模块或者类定义的函数进行修饰,不允许修饰一个 ...
设置ListView显示到最后一行
上次聊天的那个界面上用的一个TextView,然后每次消息都用text.append("消息内容"+"\n")函数来在text字符串后边接一段,然后重新显示这个 ...
Java 中的队列 Queue
一.队列的定义我们都知道队列(Queue)是一种先进先出(FIFO)的数据结构,Java中定义了java.util.Queue接口用来表示队列.Java中的Queue与List.Set属于同一个级别 ...
代理（Proxy）模式，桥梁（Bridge）模式
一:代理模式 1 根据名字我们就可以理解为:代替别人管理 2 什么情况下使用代理模式呢? 在软件系统中,有些对象有时候由于跨越网络或者其他的障碍,而不能够或者不想直接访问另一个对象,如果直接访问会给系 ...
BeanDefinition到Bean
转自:http://songzi0206.iteye.com/blog/1430239 当 BeanDefinition 注册完毕以后, Spring Bean 工厂就可以随时根据需要进行实例化了.对 ...