利用requets库采集蘑菇租房网的租房信息

前言：对于我们任何一个漂泊在外的打工者，租房似乎都是我们必经的一个经历，对于我们而言，选择性价比最高，最适合自己的房源至关重要，本文就将利用爬虫技术采集蘑菇租房网上指定的房源信息，后续可以利用这些信息进行机器筛选，比价等等，从而更加方便的找到自己心仪的房源。

爬虫第一步，找到目标网站，确定数据来源，我们打开蘑菇租房网，可以看到如下所示的界面

同样的，我们打开F12，查看network请求，可以看到它的数据直接在这个接口里返回的

分析网页，发现我们可以直接采用requests库请求获取网页数据，然后通过etree解析网页资源，获取我们想要的数据

首先是获取列表页的数据

page = self.getPageCount()

# page = 1

page_link = self.pageurl.replace('@position',str(13))

print(page)

for offset in range(page):

     # 拼接URL

     pageUrl = page_link.replace('@page',str(offset))

     print(pageUrl)

     # 通过requests获取数据

     response = requests.get(url=pageUrl,headers=get_header())

     print(response.text)

     # html=response.content

     # html_doc=str(html,'utf-8')

     # 通过etree解析文档

     tree = etree.HTML(response.text)

     # 通过xpath提取链接

     links = tree.xpath('//div[@class="roomCardSmall-box"]//a/@href')

     print(links)

     names = tree.xpath('//div[@class="roomCardSmall-box"]//a/@title')

     types = tree.xpath('//div[@class="roomCardSmall-box"]//a//div[@class="text-content-middle"]//h2[1]/text()')

     desps = tree.xpath('//div[@class="roomCardSmall-box"]//a//div[@class="text-content-middle"]//h2[2]/text()')

     positions = tree.xpath('//div[@class="roomCardSmall-box"]//a//div[@class="text-content-middle"]//p/text()')

因为列表页包含分页，所以需要先行获取分页数

def getPageCount(self):

        req = requests.get(self.baseUrl,headers=get_header())

        print(req.text)

        tree = etree.HTML(req.text)

        # 通过xpath提取链接

        page = tree.xpath('//div[@class="pageBox"]/div[@class="page-box"]/span/text()')

        if(len(page)>0):

            return int(page[0][1:3])

        else:

            return 0

获取到列表页数据后，我们可以提取详情页的链接地址，对详情页的地址发起请求，获取并解析详情页的数据

            for i in range(len(links)):

                item = {}

                item['name'] = names[i]

                item['type'] = types[i]

                item['desp'] = desps[i]

                item['position'] = positions[i]

                link = links[i]

                req = requests.get(link,headers=get_header())

                html_doc = str(req.content,'utf-8')

                print(html_doc)

                tree = etree.HTML(html_doc)

                item['pay_type'] = tree.xpath('//div[@class="w460 price mt10"]/div[@class="info"]/span[@class="type"]/text()')[0]

                item['pay_price'] = tree.xpath('//div[@class="w460 price mt10"]/div[@class="info"]/span[@class="num orange"]/text()')[0]

                item['pay_price_unit'] = tree.xpath('//div[@class="w460 price mt10"]/div[@class="info"]/span[@class="num orange"]/i/text()')[0]

                item['phone'] = tree.xpath('//div[@class="w460 room-call"]//div[@class="phone orange"]/text()')[0]

                data.append(item)

                time.sleep(random.random()*8)

            time.sleep(random.random()*8)

注意此处，我进行了随机延时操作，这是为了避免被网站的反爬虫策略识别到

获取到数据后我们还是老规矩，保存到Excel或者数据库

# # 保存数据到excel文件

    def saveToCsv(self,data):

        wb = Workbook()

        ws = wb.active

        ws.append(['标题', '类型', '描述', '地理位置', '房租支付方式', '房租', '房租单位','手机号'])

        for item in data:

            line = [item['name'], item['type'],item['desp'],item['position'],item['pay_type'],item['pay_price'],item['pay_price_unit'],item['phone']]

            ws.append(line)

            wb.save('蘑菇租房_上海.xlsx')

至此，整个爬虫工作就算完成了，完整的代码如下，需要的自取，请记得安装第三方库如lxml，下篇文章我将介绍利用浏览器的插件进行无编程的爬虫

import requests

from lxml import etree

from openpyxl import Workbook

from myutils import get_header

from selenium import webdriver

from selenium.webdriver.common.by import By

import time

import random

# 爬虫处理类

# 目标网站 蘑菇租房：http://www.mgzf.com/list/qy13_

class Spider:

    # 目标网站列表页的基本链接

    baseUrl = 'http://www.mgzf.com/list/qy@position_'

    pageurl = 'http://www.mgzf.com/list/pg@page/qy@position_/?searchWord=&amp;paraName='

    # 自定义的header

    # 爬取的页数总和

    def getPageCount(self):

        req = requests.get(self.baseUrl,headers=get_header())

        print(req.text)

        tree = etree.HTML(req.text)

        # 通过xpath提取链接

        page = tree.xpath('//div[@class="pageBox"]/div[@class="page-box"]/span/text()')

        if(len(page)>0):

            return int(page[0][1:3])

        else:

            return 0

    def buffer(self,browser):

        for i in range(50):

            time.sleep(0.3)

            browser.execute_script('window.scrollBy(0,300)', '')

    def getDataByBrowswer(self):

        data = []

        print('开始爬虫')

        browser = webdriver.Chrome('C://Users/Administrator/AppData/Local/Google/Chrome/Application/chromedriver.exe')

        page_link = self.pageurl.replace('@position',str(13))

        page = 1

        for offset in range(page):

            pageUrl = page_link.replace('@page',str(offset+1))

            browser.get(pageUrl)

            time.sleep(30)

            self.buffer(browser)

            links = browser.find_elements_by_xpath('//div[@class="roomCardSmall-box"]//a')

            types = browser.find_elements_by_xpath('//div[@class="roomCardSmall-box"]//a//div[@class="text-content-middle"]//h2[1]')

            desps = browser.find_elements_by_xpath('//div[@class="roomCardSmall-box"]//a//div[@class="text-content-middle"]//h2[2]')

            positions = browser.find_elements_by_xpath('//div[@class="roomCardSmall-box"]//a//div[@class="text-content-middle"]//p')

            for i in range(len(links)):

                item = {}

                link = links[i].get_attribute('href')

                item['name'] = links[i].text

                item['type'] = types[i].text

                item['desp'] = desps[i].text

                item['position'] = positions[i].text

                browser.get(link)

                time.sleep(30)

                self.buffer(browser)

                item['pay_type'] = browser.find_element_by_xpath('//div[@class="w460 price mt10"]/div[@class="info"]/span[@class="type"]').text

                item['pay_price'] = browser.find_element_by_xpath('//div[@class="w460 price mt10"]/div[@class="info"]/span[@class="num orange"]').text

                item['pay_price_unit'] = browser.find_element_by_xpath('//div[@class="w460 price mt10"]/div[@class="info"]/span[@class="num orange"]/i').text

                item['phone'] = browser.find_element_by_xpath('//div[@class="w460 room-call"]//div[@class="phone orange"]').text

                data.append(item)

        print(data)

        browser.close()

        return data

    # 列表页处理函数、批量获取详情页链接地址

    def getData(self):

        data = []

        print('开始爬虫')

        page = self.getPageCount()

        # page = 1

        page_link = self.pageurl.replace('@position',str(13))

        print(page)

        for offset in range(page):

            # 拼接URL

            pageUrl = page_link.replace('@page',str(offset))

            print(pageUrl)

            # 通过requests获取数据

            response = requests.get(url=pageUrl,headers=get_header())

            print(response.text)

            # html=response.content

            # html_doc=str(html,'utf-8')

            # 通过etree解析文档

            tree = etree.HTML(response.text)

            # 通过xpath提取链接

            links = tree.xpath('//div[@class="roomCardSmall-box"]//a/@href')

            print(links)

            names = tree.xpath('//div[@class="roomCardSmall-box"]//a/@title')

            types = tree.xpath('//div[@class="roomCardSmall-box"]//a//div[@class="text-content-middle"]//h2[1]/text()')

            desps = tree.xpath('//div[@class="roomCardSmall-box"]//a//div[@class="text-content-middle"]//h2[2]/text()')

            positions = tree.xpath('//div[@class="roomCardSmall-box"]//a//div[@class="text-content-middle"]//p/text()')

            for i in range(len(links)):

                item = {}

                item['name'] = names[i]

                item['type'] = types[i]

                item['desp'] = desps[i]

                item['position'] = positions[i]

                link = links[i]

                req = requests.get(link,headers=get_header())

                html_doc = str(req.content,'utf-8')

                print(html_doc)

                tree = etree.HTML(html_doc)

                item['pay_type'] = tree.xpath('//div[@class="w460 price mt10"]/div[@class="info"]/span[@class="type"]/text()')[0]

                item['pay_price'] = tree.xpath('//div[@class="w460 price mt10"]/div[@class="info"]/span[@class="num orange"]/text()')[0]

                item['pay_price_unit'] = tree.xpath('//div[@class="w460 price mt10"]/div[@class="info"]/span[@class="num orange"]/i/text()')[0]

                item['phone'] = tree.xpath('//div[@class="w460 room-call"]//div[@class="phone orange"]/text()')[0]

                data.append(item)

                time.sleep(random.random()*8)

            time.sleep(random.random()*8)

        return data

    # # 保存数据到excel文件

    def saveToCsv(self,data):

        wb = Workbook()

        ws = wb.active

        ws.append(['标题', '类型', '描述', '地理位置', '房租支付方式', '房租', '房租单位','手机号'])

        for item in data:

            line = [item['name'], item['type'],item['desp'],item['position'],item['pay_type'],item['pay_price'],item['pay_price_unit'],item['phone']]

            ws.append(line)

            wb.save('蘑菇租房_上海.xlsx')

    # # 开始爬虫

    def startSpider(self):

        data = self.getData()

        self.saveToCsv(data)

        # data = self.getDataByBrowswer()

        # self.saveToCsv(data)

if __name__ == "__main__":

    spider = Spider()

    spider.startSpider()

利用requets库采集蘑菇租房网的租房信息的更多相关文章

crawler4j源码学习(2)：Ziroom租房网房源信息采集爬虫
crawler4j是用Java实现的开源网络爬虫.提供了简单易用的接口,可以在几分钟内创建一个多线程网络爬虫.下面实例结合jsoup解析网页,javacsv存储采集数据:采集自如ziroom租房网(h ...
第一百四十三节，JavaScript，利用封装库做百度分享
JavaScript,利用封装库做百度分享效果图 html代码 <div id="share"> <h2>分享到</h2> <ul> ...
利用python库twilio来免费发送短信
大家好,我是四毛,最近开通了个人公众号“用Python来编程”,欢迎大家“关注”,这样您就可以收到优质的文章了. 今天跟大家分享的主题是利用python库twilio来免费发送短信. 先放一张成品图 ...
Python:利用 selenium 库抓取动态网页示例
前言在抓取常规的静态网页时,我们直接请求对应的 url 就可以获取到完整的 HTML 页面,但是对于动态页面,网页显示的内容往往是通过 ajax 动态去生成的,所以如果是用 urllib.reque ...
Python利用PyExecJS库执行JS函数
在Web渗透流程的暴力登录场景和爬虫抓取场景中,经常会遇到一些登录表单用DES之类的加密方式来加密参数,也就是说,你不搞定这些前端加密,你的编写的脚本是不可能Login成功的.针对这个问题,现在有 ...
Qt编写数据可视化大屏界面电子看板12-数据库采集
一.前言数据采集是整个数据可视化大屏界面电子看板系统核心功能,没有数据源,这仅仅是个玩具UI,没啥用,当然默认做了定时器模拟数据,产生随机数据,这个可以直接配置文件修改来选择采用何种数据采集方法,总 ...
如何利用BeautifulSoup选择器抓取京东网商品信息
昨天小编利用Python正则表达式爬取了京东网商品信息,看过代码的小伙伴们基本上都坐不住了,辣么多的规则和辣么长的代码,悲伤辣么大,实在是受不鸟了.不过小伙伴们不用担心,今天小编利用美丽的汤来为大家演 ...
如何利用CSS选择器抓取京东网商品信息
前几天小编分别利用Python正则表达式.BeautifulSoup.Xpath分别爬取了京东网商品信息,今天小编利用CSS选择器来为大家展示一下如何实现京东商品信息的精准匹配~~ CSS选择器目前 ...
c# 利用动态库DllImport("kernel32")读写ini文件（提供Dmo下载）
c# 利用动态库DllImport("kernel32")读写ini文件自从读了设计模式,真的会改变一个程序员的习惯.我觉得嘛,经验也可以从一个人的习惯看得出来,看他的代码编写习 ...

随机推荐

MySQL高可用篇之MHA集群
1 准备工作 1.1 修改主机名 vim /etc/hosts # 添加对应主机 192.168.28.128 mha1 192.168.28.131 mha2 192.168.28.132 mha3 ...
5.CSS的引入方式
CSS的三种样式表按照CSS样式书写的位置(或者引入的方式),CSS的样式表可以分为三大类: 1.行内样式表(行内式) <div style="color:red: font-siz ...
.NET Core 反射获取所有控制器及方法上特定标签
.NET Core 反射获取所有控制器及方法上特定标签有个需求,就是在. NET Core中,我们想在项目启动时,获取LinCmsAuthorizeAttribute这个特性标签所有出现的地方,把 ...
[Android应用开发] 02.界面展现和文件权限
*:first-child { margin-top: 0 !important; } body > *:last-child { margin-bottom: 0 !important; } ...
java方式实现堆排序
一.堆排序和堆相关概念描述堆排序是指利用堆这种数据结构所设计的一种排序算法.堆是一个近似完全二叉树的结构,并同时满足堆的性质:即子结点的值总是小于(或者大于)它的父节点,若子结点的值总是小于它的父节 ...
DataGuard VS Beedup & GoldenGate灾备方案参数对比
世上本无完美产品,只有合适的才是最好的! 用户重视灾备数据站点的建设,毋庸置疑必备品.如果考虑带宽及事务完整性保证,存储灾备和操作系统级灾备局限性显而易见. 商用价值一般用于解决数据库自带辅助功能的短 ...
Java实现 LeetCode 712 两个字符串的最小ASCII删除和（最长公共子串&&ASCII值最小）
712. 两个字符串的最小ASCII删除和给定两个字符串s1, s2,找到使两个字符串相等所需删除字符的ASCII值的最小和. 示例 1: 输入: s1 = "sea", s2 ...
Java实现 LeetCode 455 分发饼干
455. 分发饼干假设你是一位很棒的家长,想要给你的孩子们一些小饼干.但是,每个孩子最多只能给一块饼干.对每个孩子 i ,都有一个胃口值 gi ,这是能让孩子们满足胃口的饼干的最小尺寸:并且每块饼干 ...
Java实现洛谷 P1598 垂直柱状图
题目描述写一个程序从输入文件中去读取四行大写字母(全都是大写的,每行不超过100个字符),然后用柱状图输出每个字符在输入文件中出现的次数.严格地按照输出样例来安排你的输出格式. 输入格式四行字符, ...
java代码（13） ---Predicate详解
Predicate详解遇到Predicate是自己在自定义Mybatis拦截器的时候,在拦截器中我们是通过反射机制获取对象的所有属性,在查看这些属性上是否有我们自定义的UUID注解如果有该注解,那 ...

利用requets库采集蘑菇租房网的租房信息

利用requets库采集蘑菇租房网的租房信息的更多相关文章

随机推荐

热门专题