Python爬虫入门教程石家庄链家租房数据抓取

1. 写在前面

这篇博客爬取了链家网的租房信息，爬取到的数据在后面的博客中可以作为一些数据分析的素材。
我们需要爬取的网址为：https://sjz.lianjia.com/zufang/

2. 分析网址

首先确定一下，哪些数据是我们需要的

可以看到，黄色框就是我们需要的数据。

接下来，确定一下翻页规律

https://sjz.lianjia.com/zufang/pg1/

https://sjz.lianjia.com/zufang/pg2/

https://sjz.lianjia.com/zufang/pg3/

https://sjz.lianjia.com/zufang/pg4/

https://sjz.lianjia.com/zufang/pg5/

...

https://sjz.lianjia.com/zufang/pg80/

3. 解析网页

有了分页地址，就可以快速把链接拼接完毕，我们采用lxml模块解析网页源码，获取想要的数据。

本次编码使用了一个新的模块 fake_useragent ，这个模块，可以随机的去获取一个UA（user-agent），模块使用比较简单，可以去百度百度就很多教程。

本篇博客主要使用的是调用一个随机的UA

self._ua = UserAgent()

self._headers = {"User-Agent": self._ua.random}  # 调用一个随机的UA

由于可以快速的把页码拼接出来，所以采用协程进行抓取，写入csv文件采用的pandas模块

from fake_useragent import UserAgent

from lxml import etree

import asyncio

import aiohttp

import pandas as pd

class LianjiaSpider(object):

    def __init__(self):

        self._ua = UserAgent()

        self._headers = {"User-Agent": self._ua.random}

        self._data = list()

    async def get(self,url):

        async with aiohttp.ClientSession() as session:

            try:

                async with session.get(url,headers=self._headers,timeout=3) as resp:

                    if resp.status==200:

                        result = await resp.text()

                        return result

            except Exception as e:

                print(e.args)

    async def parse_html(self):

        for page in range(1,77):

            url = "https://sjz.lianjia.com/zufang/pg{}/".format(page)

            print("正在爬取{}".format(url))

            html = await self.get(url)   # 获取网页内容

            html = etree.HTML(html)  # 解析网页

            self.parse_page(html)   # 匹配我们想要的数据

            print("正在存储数据....")

            ######################### 数据写入

            data = pd.DataFrame(self._data)

            data.to_csv("链家网租房数据.csv", encoding='utf_8_sig')   # 写入文件

            ######################### 数据写入

    def run(self):

        loop = asyncio.get_event_loop()

        tasks = [asyncio.ensure_future(self.parse_html())]

        loop.run_until_complete(asyncio.wait(tasks))

if __name__ == '__main__':

    l = LianjiaSpider()

    l.run()

上述代码中缺少一个解析网页的函数，我们接下来把他补全

def parse_page(self,html):

        info_panel = html.xpath("//div[@class='info-panel']")

        for info in info_panel:

            region = self.remove_space(info.xpath(".//span[@class='region']/text()"))

            zone = self.remove_space(info.xpath(".//span[@class='zone']/span/text()"))

            meters = self.remove_space(info.xpath(".//span[@class='meters']/text()"))

            where = self.remove_space(info.xpath(".//div[@class='where']/span[4]/text()"))

            con = info.xpath(".//div[@class='con']/text()")

            floor = con[0]  # 楼层

            type = con[1]   # 样式

            agent = info.xpath(".//div[@class='con']/a/text()")[0]

            has = info.xpath(".//div[@class='left agency']//text()")

            price = info.xpath(".//div[@class='price']/span/text()")[0]

            price_pre =  info.xpath(".//div[@class='price-pre']/text()")[0]

            look_num = info.xpath(".//div[@class='square']//span[@class='num']/text()")[0]

            one_data = {

                "region":region,

                "zone":zone,

                "meters":meters,

                "where":where,

                "louceng":floor,

                "type":type,

                "xiaoshou":agent,

                "has":has,

                "price":price,

                "price_pre":price_pre,

                "num":look_num

            }

            self._data.append(one_data)  # 添加数据

不一会，数据就爬取的差不多了。

Python爬虫入门教程石家庄链家租房数据抓取的更多相关文章

Python爬虫入门教程 23-100 石家庄链家租房数据抓取
1. 写在前面作为一个活跃在京津冀地区的开发者,要闲着没事就看看石家庄这个国际化大都市的一些数据,这篇博客爬取了链家网的租房信息,爬取到的数据在后面的博客中可以作为一些数据分析的素材. 我们需要爬取 ...
Python爬虫入门教程 30-100 高考派大学数据抓取 scrapy
1. 高考派大学数据----写在前面终于写到了scrapy爬虫框架了,这个框架可以说是python爬虫框架里面出镜率最高的一个了,我们接下来重点研究一下它的使用规则. 安装过程自己百度一下,就能找到 ...
Python爬虫入门教程 31-100 36氪(36kr)数据抓取 scrapy
1. 36氪(36kr)数据----写在前面今天抓取一个新闻媒体,36kr的文章内容,也是为后面的数据分析做相应的准备的,预计在12月底,爬虫大概写到50篇案例的时刻,将会迎来一个新的内容,系统的数 ...
Python爬虫入门教程 22-100 CSDN学院课程数据抓取
1. CSDN学院课程数据-写在前面今天又要抓取一个网站了,选择恐惧症使得我不知道该拿谁下手,找来找去,算了,还是抓取CSDN学院吧,CSDN学院的网站为 https://edu.csdn.net/ ...
Python爬虫入门教程 20-100 慕课网免费课程抓取
写在前面美好的一天又开始了,今天咱继续爬取IT在线教育类网站,慕课网,这个平台的数据量并不是很多,所以爬取起来还是比较简单的准备爬取打开我们要爬取的页面,寻找分页点和查看是否是异步加载的数据. ...
Python爬虫入门教程 3-100 美空网数据爬取
美空网数据----简介从今天开始,我们尝试用2篇博客的内容量,搞定一个网站叫做"美空网"网址为:http://www.moko.cc/, 这个网站我分析了一下,我们要爬取的图片在 ...
Python爬虫入门教程 12-100 半次元COS图爬取
半次元COS图爬取-写在前面今天在浏览网站的时候,忽然一个莫名的链接指引着我跳转到了半次元网站 https://bcy.net/ 打开之后,发现也没有什么有意思的内容,职业的敏感让我瞬间联想到了 c ...
Python爬虫入门教程 10-100 图虫网多线程爬取
图虫网-写在前面经历了一顿噼里啪啦的操作之后,终于我把博客写到了第10篇,后面,慢慢的会涉及到更多的爬虫模块,有人问scrapy 啥时候开始用,这个我预计要在30篇以后了吧,后面的套路依旧慢节奏的, ...
Python爬虫入门教程： All IT eBooks多线程爬取
All IT eBooks多线程爬取-写在前面对一个爬虫爱好者来说,或多或少都有这么一点点的收集癖 ~ 发现好的图片,发现好的书籍,发现各种能存放在电脑上的东西,都喜欢把它批量的爬取下来. 然后放着 ...

随机推荐

Postgres 的 Array 类型
mysql 不支持 Array 类型一.Postgres 原生SQL 适用场景:可以用于实现贴标签功能 1.定义 CREATE TABLE "Students" ( name V ...
【xsy1061】排列树状数组
题目大意:给你一个$1$到$n$的排列,问是否存在一对数$a,b(1≤a,b≤n,a≠b)$满足$a+b$为偶数且$(a+b)/2$在$a$和$b$之间. 数据范围:$n≤3\times 10^{5} ...
Django 模版过滤器
模版常用过滤器在模版中,有时候需要对一些数据进行处理以后才能使用.一般在Python中我们是通过函数的形式来完成的.而在模版中,则是通过过滤器来实现的.过滤器使用的是|来使用.比如使用add过滤器, ...
django-suit报错解决-----from suit.apps import DjangoSuitConfig
(py27) [root@test SimpletourDevops]# python manage.py makemigrationsTraceback (most recent call last ...
odoo开发笔记 -- 安装Backend debranding去除odoo信息模块后隐藏开发者模式
Backend debranding 找到如下文件,将相关灰色代码注释掉. <?xml version="1.0" encoding="UTF-8"?&g ...
【原创】SQL Server 性能调优读书笔记
CPU 100%: 有时可能是硬盘性能不足,或者内存容量不够,让CPU一直忙于I/O. 导致性能问题的一些因素: 用户习惯:在运行尖峰时刻做一些不必做但消耗资源的事情,如之行数据库完整备份,如在服务器 ...
print默认在末尾添加一个换行符，但其实也可以不用！
白月黑羽今天给大家分享另外一个冷知识:) python中 print函数打印信息时默认添加一个换行符,所以你看到一条print语句,则单独占一行,那是否可以不要换行符呢? 答案是肯定的,当然可以,可用 ...
vue子组件传参给父组件
关于父组件传参给子组件,可以看我另一篇文章教程开始: 我们要实现的效果是:在子组件的Input框输入,父组件中实时更新显示.(也就是把子组件中的数据传给父组件) 一.子组件代码 template部分 ...
PHP多进程系列笔记（二）
上一篇文章讲解了pcntl_fork和pcntl_wait两个函数的使用,本篇继续讲解PHP多进程相关新知识. 僵尸(zombie)进程这里说下僵尸进程: 僵尸进程是指的父进程已经退出,而该进程de ...
Go的方法集
方法集定义了接口的接受规则. package main import "fmt" type notifier interface { notify() } type user st ...