Python爬虫练习(多线程，进程，协程抓取网页)

详情点我跳转

关注公众号“轻松学编程”了解更多。

一、多线程抓取网页

流程：a.设置种子url b.获取区域列表 c.循环区域列表 d.创建线程获取页面数据

e、启动线程

import csv

import threading

import time

import requests

import lxml

from lxml import etree

import json

# 递归锁

rlock = threading.RLock()

# 设置请求头

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"}

def getAreaList(url):

    '''

    获取区域列表

    :param url:

    :return: dict {"cityName":"cityUrl"}

    '''

    # 获取响应

    response = requests.get(url,headers=headers).text

    # 创建xml树形结构对象

    mytree = lxml.etree.HTML(response)

    # 分区

    areaList = mytree.xpath('//div[@data-role="ershoufang"]/div/a')

    #分区字典

    areaDict = {}

    for area in areaList:

        #区域名

        areaName = area.xpath('./text()')[0]

        areaUrl = "https://gz.lianjia.com"+area.xpath('./@href')[0]

        areaDict[areaName] = areaUrl

        # print(areaName,areaUrl)

    return areaDict

def getPageTotal(url):

    '''

    获取分区页数

    :param url: utl

    :return: int 总页数

    '''

    response = requests.get(url,headers=headers).text

    mytree = lxml.etree.HTML(response)

    # 获取总页数

    pageTotal = mytree.xpath('//div[@class="page-box house-lst-page-box"]/@page-data')[0]

    pageTotal = int(json.loads(pageTotal)["totalPage"])

    # print(pageTotal)

    return pageTotal

def getHouseInfo(area,url):

    '''

    获取房子信息

    :param area:区域

    :param url: url

    :return:

    '''

    pageTotal = getPageTotal(url)

    for page in range(1,pageTotal+1):

        newurl = url+"pg%d/"%page

        # print(newurl)

        response = requests.get(newurl,headers=headers).text

        mytree = lxml.etree.HTML(response)

        houseList = mytree.xpath('//li[@class="clear"]')

        print(houseList)

        for house in houseList:

            # 房子标题

            houseTitle = house.xpath('.//div[@class="title"]/a/text()')[0]

            # 房子url

            houseUrl = house.xpath('.//div[@class="title"]/a/@href')[0]

            # 房子地址

            houseAddr = house.xpath('.//div[@class="houseInfo"]//text()')

            houseAddr = ''.join(houseAddr)

            # 位置信息

            positionInfo = house.xpath('.//div[@class="positionInfo"]//text()')

            positionInfo = ''.join(positionInfo)

            # 总价

            priceInfo = house.xpath('.//div[@class="totalPrice"]/span/text()')[0] + '万'

            # 平方价

            unitPrice = house.xpath('.//div[@class="unitPrice"]/span/text()')[0]

            print(houseTitle,houseUrl,houseAddr,positionInfo,priceInfo,unitPrice)

            # 保存成csv文件

            with rlock:

                with open('./data/'+area+'.csv','a+',encoding='utf-8',errors='ignore') as f:

                    writer = csv.writer(f)

                    writer.writerow([houseTitle,houseUrl,houseAddr,positionInfo,priceInfo,unitPrice])

if __name__ == '__main__':

    #设置种子url

    cityUrl = "https://gz.lianjia.com/ershoufang/"

    # 获取区域列表

    areaDict = getAreaList(cityUrl)

    threadList = []

    time.clock()

    for areaName,areaUrl in areaDict.items():

        # 创建线程

        t = threading.Thread(target=getHouseInfo,args=(areaName,areaUrl))

        t.start()

        threadList.append(t)

# 保证线程正常结束

    for t in threadList:

        t.join()

    print(time.clock())

二、协程抓取网页

import csv

import threading

import time

import requests

import lxml

from lxml import etree

import json

import gevent

from gevent import monkey

# 非阻塞型

gevent.monkey.patch_all()

# 递归锁

rlock = threading.RLock()

# 设置请求头

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"}

def getAreaList(url):

    '''

    获取区域列表

    :param url:

    :return: dict {"cityName":"cityUrl"}

    '''

    # 获取响应

    response = requests.get(url,headers=headers).text

    # 创建xml树形结构对象

    mytree = lxml.etree.HTML(response)

    # 分区

    areaList = mytree.xpath('//div[@data-role="ershoufang"]/div/a')

    #分区字典

    areaDict = {}

    for area in areaList:

        #区域名

        areaName = area.xpath('./text()')[0]

        areaUrl = "https://gz.lianjia.com"+area.xpath('./@href')[0]

        areaDict[areaName] = areaUrl

        # print(areaName,areaUrl)

    return areaDict

def getPageTotal(url):

    '''

    获取分区页数

    :param url: utl

    :return: int 总页数

    '''

    response = requests.get(url,headers=headers).text

    mytree = lxml.etree.HTML(response)

    # 获取总页数

    pageTotal = mytree.xpath('//div[@class="page-box house-lst-page-box"]/@page-data')[0]

    pageTotal = int(json.loads(pageTotal)["totalPage"])

    # print(pageTotal)

    return pageTotal

def getHouseInfo(area,url):

    '''

    获取房子信息

    :param area:区域

    :param url: url

    :return:

    '''

    pageTotal = getPageTotal(url)

    for page in range(1,pageTotal+1):

        newurl = url+"pg%d/"%page

        # print(newurl)

        response = requests.get(newurl,headers=headers).text

        mytree = lxml.etree.HTML(response)

        houseList = mytree.xpath('//li[@class="clear"]')

        print(houseList)

        for house in houseList:

            # 房子标题

            houseTitle = house.xpath('.//div[@class="title"]/a/text()')[0]

            # 房子url

            houseUrl = house.xpath('.//div[@class="title"]/a/@href')[0]

            # 房子地址

            houseAddr = house.xpath('.//div[@class="houseInfo"]//text()')

            houseAddr = ''.join(houseAddr)

            # 位置信息

            positionInfo = house.xpath('.//div[@class="positionInfo"]//text()')

            positionInfo = ''.join(positionInfo)

            # 总价

            priceInfo = house.xpath('.//div[@class="totalPrice"]/span/text()')[0] + '万'

            # 平方价

            unitPrice = house.xpath('.//div[@class="unitPrice"]/span/text()')[0]

            print(houseTitle,houseUrl,houseAddr,positionInfo,priceInfo,unitPrice)

            # 保存成csv文件

            with rlock:

                with open('./data/'+area+'.csv','a+',encoding='utf-8',errors='ignore') as f:

                    writer = csv.writer(f)

                    writer.writerow([houseTitle,houseUrl,houseAddr,positionInfo,priceInfo,unitPrice])

if __name__ == '__main__':

    #设置种子url

    cityUrl = "https://gz.lianjia.com/ershoufang/"

    # 获取区域列表

    areaDict = getAreaList(cityUrl)

    geventList = []

    time.clock()

    for areaName,areaUrl in areaDict.items():

        # 创建协程

        g = gevent.spawn(getHouseInfo,areaName,areaUrl)

        geventList.append(g)

# 保证协程正常结束

    gevent.joinall(geventList)

    print(time.clock())

三、协程与进程结合抓取网页

import csv

import threading

import time

import requests

import lxml

from lxml import etree

import json

import multiprocessing

import gevent

from gevent import monkey

# 非阻塞型

gevent.monkey.patch_all()

# 递归锁

rlock = threading.RLock()

# 设置请求头

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"}

def getAreaList(url):

    '''

    获取区域列表

    :param url:

    :return: dict {"cityName":"cityUrl"}

    '''

    # 获取响应

    response = requests.get(url,headers=headers).text

    # 创建xml树形结构对象

    mytree = lxml.etree.HTML(response)

    # 分区

    areaList = mytree.xpath('//div[@data-role="ershoufang"]/div/a')

    #分区字典

    areaDict = {}

    for area in areaList:

        #区域名

        areaName = area.xpath('./text()')[0]

        areaUrl = "https://gz.lianjia.com"+area.xpath('./@href')[0]

        areaDict[areaName] = areaUrl

        # print(areaName,areaUrl)

    return areaDict

def getPageTotal(url):

    '''

    获取分区页数

    :param url: utl

    :return: int 总页数

    '''

    response = requests.get(url,headers=headers).text

    mytree = lxml.etree.HTML(response)

    # 获取总页数

    pageTotal = mytree.xpath('//div[@class="page-box house-lst-page-box"]/@page-data')[0]

    pageTotal = int(json.loads(pageTotal)["totalPage"])

    # print(pageTotal)

    return pageTotal

def getHouseInfo(area,url):

    '''

    获取房子信息

    :param area:区域

    :param url: url

    :return:

    '''

    def houesInfo(area,url,pageTotal):

        for page in range(1,pageTotal+1):

            newurl = url+"pg%d/"%page

            # print(newurl)

            response = requests.get(newurl,headers=headers).text

            mytree = lxml.etree.HTML(response)

            houseList = mytree.xpath('//li[@class="clear"]')

            print(houseList)

            for house in houseList:

                # 房子标题

                houseTitle = house.xpath('.//div[@class="title"]/a/text()')[0]

                # 房子url

                houseUrl = house.xpath('.//div[@class="title"]/a/@href')[0]

                # 房子地址

                houseAddr = house.xpath('.//div[@class="houseInfo"]//text()')

                houseAddr = ''.join(houseAddr)

                # 位置信息

                positionInfo = house.xpath('.//div[@class="positionInfo"]//text()')

                positionInfo = ''.join(positionInfo)

                # 总价

                priceInfo = house.xpath('.//div[@class="totalPrice"]/span/text()')[0] + '万'

                # 平方价

                unitPrice = house.xpath('.//div[@class="unitPrice"]/span/text()')[0]

                print(houseTitle,houseUrl,houseAddr,positionInfo,priceInfo,unitPrice)

                # 保存成csv文件

                with rlock:

                    with open('./data/'+area+'.csv','a+',encoding='utf-8',errors='ignore') as f:

                        writer = csv.writer(f)

                        writer.writerow([houseTitle,houseUrl,houseAddr,positionInfo,priceInfo,unitPrice])

    # 获取总页数

    pageTotal = getPageTotal(url)

    # 创建协程

    g = gevent.spawn(houesInfo, area, url, pageTotal)

    # 保证协程正常结束

    gevent.joinall([g])

if __name__ == '__main__':

    #设置种子url

    cityUrl = "https://gz.lianjia.com/ershoufang/"

    # 获取区域列表

    areaDict = getAreaList(cityUrl)

    processList = []

    time.clock()

    for areaName,areaUrl in areaDict.items():

        # 创建进程

        p = multiprocessing.Process(target=getHouseInfo,args=(areaName,areaUrl))

        p.start()

        processList.append(p)

    # 保证进程正常结束

    for p in processList:

        p.join()

    print(time.clock())

后记

【后记】为了让大家能够轻松学编程，我创建了一个公众号【轻松学编程】，里面有让你快速学会编程的文章，当然也有一些干货提高你的编程水平，也有一些编程项目适合做一些课程设计等课题。

也可加我微信【1257309054】，拉你进群，大家一起交流学习。
如果文章对您有帮助，请我喝杯咖啡吧！

公众号

关注我，我们一起成长~~

Python爬虫练习(多线程，进程，协程抓取网页)的更多相关文章

python单线程，多线程和协程速度对比
在某些应用场景下,想要提高python的并发能力,可以使用多线程,或者协程.比如网络爬虫,数据库操作等一些IO密集型的操作.下面对比python单线程,多线程和协程在网络爬虫场景下的速度. 一,单线程 ...
Python爬虫工程师必学——App数据抓取实战 ✌✌
Python爬虫工程师必学——App数据抓取实战 (一个人学习或许会很枯燥,但是寻找更多志同道合的朋友一起,学习将会变得更加有意义✌✌) 爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统 ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
Python爬虫工程师必学APP数据抓取实战✍✍✍
Python爬虫工程师必学APP数据抓取实战整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受,单论单个知识点课程本身没问题,大 ...
Python爬虫工程师必学——App数据抓取实战
Python爬虫工程师必学 App数据抓取实战整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受,单论单个知识点课程本身没问题,大 ...
也说性能测试，顺便说python的多进程+多线程、协程
最近需要一个web系统进行接口性能测试,这里顺便说一下性能测试的步骤吧,大概如下一.分析接口频率根据系统的复杂程度,接口的数量有多有少,应该优先对那些频率高,数据库操作频繁的接口进行性能测试,所以 ...
python 多进程，多线程，协程
在我们实际编码中,会遇到一些并行的任务,因为单个任务无法最大限度的使用计算机资源.使用并行任务,可以提高代码效率,最大限度的发挥计算机的性能.python实现并行任务可以有多进程,多线程,协程等方式. ...
Python并发编程——多线程与协程
Pythpn并发编程--多线程与协程目录 Pythpn并发编程--多线程与协程 1. 进程与线程 1.1 概念上 1.2 多进程与多线程--同时执行多个任务 2. 并发和并行 3. Python多线 ...
Python多进程、多线程、协程
转载:https://www.cnblogs.com/huangguifeng/p/7632799.html 首先我们来了解下python中的进程,线程以及协程! 从计算机硬件角度: 计算机的核心是C ...

随机推荐

git的详细使用，项目创建到同步远程仓库，版本回退，忽略文件，分支创建，分支合并，分支名称修改，冲突解决，项目迁移
注意:此处省略git的安装 1..git的工作流程示意图: 2.本地仓库的初始化: 2.1 创建一个文件夹,如我创建的是:D:\gitdemo\shop 2.2 进入shop目录,鼠标右键,打开git ...
Centos-统计文件或目录占用磁盘空间-du
du 显示文件或目录所占磁盘空间总量相关选项 -s 显示文件或者整个目录的大小,默认单位为KB -b 指定单位为byte -h 人类友好读方式显示 -m 指定单位为 MB
Go-注释
什么是注释? 注释是给开发人员看的,目的是降低开发人员阅读代码的时间成本和代码阅读困难程度 Go-注释内容 1. 包注释,位于某个包下Go程序文件的顶部 2. 函数注释,位于Go函数的头部 3. 代码 ...
python数据结构之图深度优先和广度优先实例详解
本文实例讲述了python数据结构之图深度优先和广度优先用法.分享给大家供大家参考.具体如下: 首先有一个概念:回溯回溯法(探索与回溯法)是一种选优搜索法,按选优条件向前搜索,以达到目标.但当探索到 ...
微型直流电机控制基本方法 L298N模块
控制任务让单个直流电机在L298N模块驱动下,完成制动.自由停车,正反转,加减速等基本动作芯片模块及电路设计图1 L298N芯片引脚图2 L298N驱动模块表1 L298N驱动模块的控制引脚 ...
==38254==Sanitizer CHECK failed报错解决
跑代码时发现有如下报错: LeakSanitizer: bad pointer 0x7ffd00735130==38254==Sanitizer CHECK failed: ../../../../l ...
[WC 2011]最大Xor和路径
题目大意: 给你一张n个点,m条边的无向图,每条边都有一个权值,求:1到n的路径权值和的最大值. 题解: 任意一条路径都能够由一条简单路径(任意一条),在接上若干个环构成(如果不与这条简单路径相连就走 ...
对lambda表达式的字节码实现个人理解 - 简单描述
暂且抛开具体的代码实现,谈谈个人的理解. 常规的方法调用,具体由哪条指令来执行,实际都是在JVM的规则中就定下来了,比如构造方法使用invokeSpecial,静态方法使用invokeStatic.现 ...
唯品会Java开发手册》1.0.2版阅读
<唯品会Java开发手册>1.0.2版阅读 1. 概述 <阿里巴巴Java开发手册>,是首个对外公布的企业级Java开发手册,对整个业界都有重要的意义. 我们结合唯品会的内部经 ...
多测师讲解htm_L标题标签001_高级讲师肖sir
<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title>百 ...