爬虫连接mongodb、多线程多进程的使用

一、连接mongodb

1、设置数据库 client=pymongo.MongoClient(‘localhost’)

2、 db=client[‘lagou’]设置连接的数据库名称

POSITION_NAME=’’ 、PAGE_SUM 、PAGE_SIZE 等为你设置的变量名称。

3、DATA_NAME=’dataposition’   # # 指定数据库的名字

4、设置保存在mongo数据库中的数据：

def save_to_mongo(data):

    if db[DATA_NAME].update({'positionId': data['positionId']}, {'$set': data}, True):

        print('Saved to Mongo', data['positionId'])

    else:

        print('Saved to Mongo Failed', data['positionId'])

这是以positionId为唯一标识，如果数据库里面已经存在有positionId,说明数据已经爬过了，不再更新。

二、多进程设置和使用：

1、导入多进程：from multiprocessing import Pool

导入时间  import time

2、start_time = time.time()

pool = Pool()  # pool()参数：进程个数：默认的是电脑cpu的核的个数，如果要指定进程个数，这个进程个数要小于等于cpu的核数

# 第一个参数是一个函数体，不需要加括号，也不需指定参数。。

#  第二个参数是一个列表，列表中的每个参数都会传给那个函数体

pool.map(to_mongo_pool,[i for i in range(PAGE_SUM)])

# close它只是把进程池关闭

pool.close()

# join起到一个阻塞的作用，主进程要等待子进程运行完，才能接着往下运行

pool.join()

end_time = time.time()

print("总耗费时间%.2f秒" % (end_time - start_time))

to_mongo_pool:这个函数要设计好，就一个参数就够了，然后把它的参数放在列表里面，通过map高阶函数一次传给to_mongo_pool

多线程的使用：

多线程要配合队列使用：

# coding=utf-8

import requests

from lxml import etree  

import threading 导入线程

from queue import Queue  导入队列

# https://docs.python.org/3/library/queue.html#module-queue

# 队列使用方法简介

# q.qsize() 返回队列的大小

# q.empty() 如果队列为空，返回True,反之False

# q.full() 如果队列满了，返回True,反之False

# q.full 与 maxsize 大小对应

# q.get([block[, timeout]]) 获取队列，timeout等待时间

# q.get_nowait() 相当q.get(False)

# q.put(item) 写入队列，timeout等待时间

# q.put_nowait(item) 相当q.put(item, False)

# q.task_done() 在完成一项工作之后，q.task_done() 函数向任务已经完成的队列发送一个信号

# q.join() 实际上意味着等到队列为空，再执行别的操作


class Lianjia:

    def __init__(self):

        self.url_temp = url = "https://gz.lianjia.com/ershoufang/pg{}/"

        self.headers = {

            "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36"}

        self.url_queue = Queue()

        self.html_queue = Queue()

        self.content_queue = Queue()

    def get_url_list(self):

        # return [self.url_temp.format(i) for i in range(1,14)]

        for i in range(1, 14):

            # 把13个索引页面的Url放进url_queue队列里

            self.url_queue.put(self.url_temp.format(i))

定义运行函数

def run(self):  # 实现主要逻辑

    thread_list = []

    # 1.url_list

    # threading.Thread不需要传参数，参数都是从队列里面取得

    t_url = threading.Thread(target=self.get_url_list)

    thread_list.append(t_url)

    # 2.遍历，发送请求，获取响应

    for i in range(20):  # 添加20个线程

        t_parse = threading.Thread(target=self.parse_url)

        thread_list.append(t_parse)

    # 3.提取数据

    for i in range(2):  # 添加2个线程

        t_html = threading.Thread(target=self.get_content_list)

        thread_list.append(t_html)

    # 4.保存

    t_save = threading.Thread(target=self.save_content_list)

    thread_list.append(t_save)

    for t in thread_list:

        t.setDaemon(True)  # 把子线程设置为守护线程，该线程不重要，主线程结束，子线程结束(子线程是while true不会自己结束)

        t.start()

    for q in [self.url_queue, self.html_queue, self.content_queue]:

        q.join()  # 让主线程等待阻塞，等待队列的任务完成（即队列为空时 ）之后再进行主线程

    print("主线程结束")

代码如下：

# coding=utf-

import requests

from lxml import etree

import threading

from queue import Queue

# https://docs.python.org/3/library/queue.html#module-queue

# 队列使用方法简介

# q.qsize() 返回队列的大小

# q.empty() 如果队列为空，返回True,反之False

# q.full() 如果队列满了，返回True,反之False

# q.full 与 maxsize 大小对应

# q.get([block[, timeout]]) 获取队列，timeout等待时间

# q.get_nowait() 相当q.get(False)

# q.put(item) 写入队列，timeout等待时间

# q.put_nowait(item) 相当q.put(item, False)

# q.task_done() 在完成一项工作之后，q.task_done() 函数向任务已经完成的队列发送一个信号

# q.join() 实际上意味着等到队列为空，再执行别的操作

class Lianjia:

    def __init__(self):

        self.url_temp = url = "https://gz.lianjia.com/ershoufang/pg{}/"

        self.headers = {

            "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36"}

        self.url_queue = Queue()

        self.html_queue = Queue()

        self.content_queue = Queue()

    def get_url_list(self):

        # return [self.url_temp.format(i) for i in range(,)]

        for i in range(, ):

            # 把13个索引页面的Url放进url_queue队列里

            self.url_queue.put(self.url_temp.format(i))

    def parse_url(self):

        while True:

            # get方法和task_done搭配使用

            # 在put是队列+，get和task_done一起使用时队列才会-

            url = self.url_queue.get()

            print(url)

            response = requests.get(url, headers=self.headers)

            # 然后把索引页的响应页面放进html_queue队列里

            self.html_queue.put(response.content.decode())

            self.url_queue.task_done()

    def get_content_list(self):  # 提取数据

        while True:

            # 先从索引页响应页面html_queue队列里面取出索引页面

            html_str = self.html_queue.get()

            html = etree.HTML(html_str)

            div_list = html.xpath('//li[@class="clear LOGCLICKDATA"]')  # 分组

            content_list = []

            for div in div_list:

                item = {}

                item['title'] = div.xpath('.//div[@class="title"]/a/text()')

                item['href'] = div.xpath('.//div[@class="title"]/a/@href')

                item['totalPrice'] = div.xpath('.//div[@class="totalPrice"]/span/text()')

                item['houseInfo'] = div.xpath('.//div[@class="houseInfo"]/text()')

                content_list.append(item)

            # 把content_list放进content_queue里面

            self.content_queue.put(content_list)

            self.html_queue.task_done()

    def save_content_list(self):  # 保存

        while True:

            content_list = self.content_queue.get()

            for i in content_list:

                print(i)

                pass

            self.content_queue.task_done()

    def run(self):  # 实现主要逻辑

        thread_list = []

        # .url_list

        # threading.Thread不需要传参数，参数都是从队列里面取得

        t_url = threading.Thread(target=self.get_url_list)

        thread_list.append(t_url)

        # .遍历，发送请求，获取响应

        for i in range():  # 添加20个线程

            t_parse = threading.Thread(target=self.parse_url)

            thread_list.append(t_parse)

        # .提取数据

        for i in range():  # 添加2个线程

            t_html = threading.Thread(target=self.get_content_list)

            thread_list.append(t_html)

        # .保存

        t_save = threading.Thread(target=self.save_content_list)

        thread_list.append(t_save)

        for t in thread_list:

            t.setDaemon(True)  # 把子线程设置为守护线程，该线程不重要，主线程结束，子线程结束(子线程是while true不会自己结束)

            t.start()

        for q in [self.url_queue, self.html_queue, self.content_queue]:

            q.join()  # 让主线程等待阻塞，等待队列的任务完成（即队列为空时 ）之后再进行主线程

        print("主线程结束")

if __name__ == '__main__':

    qiubai =Lianjia()

    qiubai.run()

# 所没有tast_done方法，程序最终会卡着不动，无法终止

爬虫连接mongodb、多线程多进程的使用的更多相关文章

爬虫链接mongodb 以及多线程多进程的操作
一.连接mongodb 1. 设置数据库 client=pymongo.MongoClient(‘localhost’) 2. db=client[‘lag ...
爬虫入门【8】Python连接MongoDB的用法简介
MongoDB的连接和数据存取 MongoDB是一种跨平台,面向文档的NoSQL数据库,提供高性能,高可用性并且易于扩展. 包含数据库,集合,文档等几个重要概念. 我们在这里不介绍MongoDB的特点 ...
python爬虫入门八：多进程/多线程
什么是多线程/多进程引用虫师的解释: 计算机程序只不过是磁盘中可执行的,二进制(或其它类型)的数据.它们只有在被读取到内存中,被操作系统调用的时候才开始它们的生命期. 进程(有时被称为重量级进程)是 ...
Python有了asyncio和aiohttp在爬虫这类型IO任务中多线程/多进程还有存在的必要吗？
最近正在学习Python中的异步编程,看了一些博客后做了一些小测验:对比asyncio+aiohttp的爬虫和asyncio+aiohttp+concurrent.futures(线程池/进程池)在效 ...
python爬虫之MongoDB测试环境安装
一. 下载从http://www.mongodb.org/downloads地址中下载:mongodb-linux-x86_64-2.4.11.tar 二. 安装 1>设置mongoDB ...
C++程序员面试题目总结(涉及C++基础、多线程多进程、网络编程、数据结构与算法)
说明:C++程序员面试题目总结(涉及C++基础知识.多线程多进程.TCP/IP网络编程.Linux操作.数据结构与算法) 内容来自作者看过的帖子或者看过的文章,个人整理自互联网,如有侵权,请联系作者 ...
使用mongo-java-driver-3.0.2连接MongoDB数据库
这里使用的mongodb的java驱动版本是:3.0.2,文件名mongo-java-driver-3.0.2.jar 博客本地下载下载网址(也可以下载其它版本):http://central.ma ...
WPF 同一窗口内的多线程/多进程 UI（使用 SetParent 嵌入另一个窗口）
原文 WPF 同一窗口内的多线程/多进程 UI(使用 SetParent 嵌入另一个窗口) WPF 的 UI 逻辑只在同一个线程中,这是学习 WPF 开发中大家几乎都会学习到的经验.如果希望做不同线程 ...
Python多线程多进程那些事儿看这篇就够了~~
自己以前也写过多线程,发现都是零零碎碎,这篇写写详细点,填一下GIL和Python多线程多进程的坑~ 总结下GIL的坑和python多线程多进程分别应用场景(IO密集.计算密集)以及具体实现的代码模块 ...

随机推荐

gym102201E_Eat Economically
题意给\(2n\)个物品,分别有\(a,b\)属性,对于\(i=1...n\),选择\(i\)个\(a\)属性和\(i\)个\(b\)属性,且每个物品只能作为一种属性的贡献,求最小的值. 分析看了 ...
VMware安装出现"已将该虚拟机配置为使用 64 位客户机操作系统"
1.环境:ThinkPad电脑系统:win10 64位.VMWare运行虚拟机发现提示无法执行64位操作. 2.解决办法: ⑴ 进入BOIS中 ⑵ 选择Security字段,进入Virtualiza ...
Spring 梳理 - AOP那些学术概念—通知、增强处理连接点（JoinPoint)切面（Aspect）
Spring AOP那些学术概念—通知.增强处理连接点(JoinPoint)切面(Aspect) 1.我所知道的AOP 初看起来,上来就是一大堆的术语,而且还有个拉风的名字,面向切面编程,都说是 ...
redis-公平信号量
但各个系统的系统时间并不完全相同时,基本信号量就会出现问题:系统时间较慢的系统,将能够偷走系统时钟快的系统的信号量,导致信号量变得不公平.以下方法,只要系统间时间相差不到1秒,就不会出现信号量被偷或提 ...
Android蓝牙低功耗(BLE)模块设计
在阅读这篇文章之前你应该对GATT和Android蓝牙框架有一定的了解.这里不会向你解释Service.Characteristics等蓝牙知识.这里只是我写下我对Android Ble的再次封装来适 ...
阿里云服务器CentOS6.9安装Ant
下载地址:http://mirrors.hust.edu.cn/apache/ant/binaries/ 1.下载 2.上传到服务器(非root用户下) 3.解压移动目录(root用户下) tar - ...
【爬虫小程序：爬取斗鱼所有房间信息】Xpath(协程池版)
# 本程序亲测有效,用于理解爬虫相关的基础知识,不足之处希望大家批评指正 from gevent import monkey monkey.patch_all() from gevent.pool i ...
蓝松SDK支持以下的AE特性
蓝松短视频SDK 支持Ae模板, 您可以在PC端用AE设计好模板,然后导入到SDK中, 蓝松SDK支持一下的AE特性:1, Ae中的图片图层,任意多个图片图层, 每个图片的移动旋转缩放透明,锚点,蒙版 ...
使用Xhell连接Docker虚拟机
平时我们可以使用Xhell来连接Docker虚拟机. 1.首先,我们来用VirtualBox管理器来看一下default虚拟机的网络配置: 2.新建Xshell会话: a.我们可以看到ssh的主机IP ...
Java面试----01.JavaSE
1.面向对象和面向过程的区别面向过程:面向过程性能比面向对象高. 因为类调用时需要实例化,比较消耗资源,所以当性能是最重要的考虑因素时,比如单片机.嵌入式开发.Linux/Unix等一般采用面向对象 ...

爬虫连接mongodb、多线程多进程的使用

爬虫连接mongodb、多线程多进程的使用的更多相关文章

随机推荐

热门专题