python3 多线程采集 xpath

#!/usr/bin/python

# -*- coding: UTF-8 -*-

'''Thread3 多线程测试采集'''

import threading,time,queue,Mongo_utils,mysqlUtils,requests,json,os

from lxml import html

etree = html.etree

exitFlag = 0

db = Mongo_utils.mongodb_15_27017task()

table = db["xx_anjuke_agent1"]

table_urls = db["xx_spider_urls1"]

list_pro = mysqlUtils.select_pro()

list_urls = table_urls.find().limit(2000)

insert_list = []

del_list = []

class myThread(threading.Thread):

    def __init__(self,threadId,name,q):

        threading.Thread.__init__(self)

        self.threadId = threadId

        self.name = name

        self.q = q

    def run(self):

        print("开始线程" + self.name)

        spider(self.name,self.q)

        print("退出线程" + self.name)

def head():

    headers = {

        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",

        "Accept-Encoding": "gzip, deflate, br",

        "Accept-Language": "zh-CN,zh;q=0.9",

        "cache-control": "max-age=0",

        "upgrade-insecure-requests": "",

        "Connection": "keep-alive",

        "Content-Type": "text/html; charset=UTF-8",

        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36",

    }

    return headers

def spider(name,q):

    while not exitFlag:

        queueLock.acquire()

        if not workQueue.empty():

            i = q.get()

            queueLock.release()

            _id = i["_id"]

            city = i["city"]

            zone = i["zone"]

            street = i["street"]

            urls = i["urls"]

            headers = head()

            try:

                url = "https://。。。。。。。。。。。" % _id

                # //,proxies=proxy

                response_contact = requests.session().get(url=url, allow_redirects=False, headers=headers,

                                                          timeout=1)

                print(response_contact.status_code)

                if response_contact.status_code == 302:

                    print("验证")

                    print(url)

                    os._exit(0)

                res = json.loads(response_contact.text)

                contact = res['data']

                response_dl = requests.session().get(url=urls, allow_redirects=False, headers=headers,

                                                     timeout=1)

                if response_dl.status_code == 302:

                    print("验证")

                    print(urls)

                    os._exit(0)

                if ("获取成功") not in response_contact.text or ("房屋编码") not in response_dl.text:

                    print("pass")

                    pass

                html = etree.HTML(response_dl.content)

                name = html.xpath("//div[@class='brokercard-name']/text()")[0].strip()

                company = html.xpath("//div[@class='broker-company']/p[1]/a/text()")[0]

                company_url = html.xpath("//div[@class='broker-company']/p[1]/a/@href")[0]

                store = html.xpath("//div[@class='broker-company']/p[2]/span/text()")[0]

                # re = name, company, company_url, store, contact,_id,city,zone,street

                staffNo = "https://anjuxingye1.anjuke.com/gongsi-jjr-%s/" % _id

                mydict = {"_id": _id, "city": city, "zone": zone, "street": street, "name": name, "company": company,

                          "company_url": company_url,

                          "store": store, "site": "anjuke", "store_url": "", "staffNo": "", "store_url": "",

                          "staffNo": staffNo, "tag": "", "all_comm": ""

                    , "contact": contact}

                insert_list.append(mydict)

                # del_list.append(urls)

                print("size: %s" % insert_list.__len__())

            except:

                pass

            print("%s processing %s" % (name, i))

        else:

            queueLock.release()

    # time.sleep(1)

threadList = range(0,5)

queueLock = threading.Lock()

workQueue = queue.Queue(50000)

threads = []

threadID = 1

for tName in threadList:

    thread = myThread(threadID, tName, workQueue)

    thread.start()

    threads.append(thread)

    threadID += 1

# 填充队列

queueLock.acquire()

for word in list_urls:

    workQueue.put(word)

queueLock.release()

# 等待队列清空

while not workQueue.empty():

    pass

    if insert_list.__len__() > 10:

        try:

            table.insert_many(insert_list, ordered=False)

            # table_urls.remove({"urls": {"$in": del_list}})

            print("插入1000")

        except Exception as e:

            print(e)

        insert_list.clear()

        del_list.clear()

# 通知线程是时候退出

# os._exit(0)

exitFlag = 1

try:

    table.insert_many(insert_list, ordered=False)

    # table_urls.remove({"urls": {"$in": del_list}})

    print("插入1000")

except:

    pass

insert_list.clear()

del_list.clear()

# 等待所有线程完成

for t in threads:

    t.join()

print ("退出主线程")

python3 多线程采集 xpath的更多相关文章

Python3做采集
出于某些目的,需要在网上爬一些数据.考虑到Python有各种各样的库,以前想试试Pycharm这个IDE,就决定用它了.首先翻完<深入Python3>这本书,了解了它的语法之类的.下面就开 ...
python3 多线程爬虫模板
原文:https://www.jianshu.com/p/06ae2373f560 1 import threading # 多线程模块 2 import queue # 队列模块 3 import ...
【Python数据分析】Python3多线程并发网络爬虫-以豆瓣图书Top250为例
基于上两篇文章的工作 [Python数据分析]Python3操作Excel-以豆瓣图书Top250为例 [Python数据分析]Python3操作Excel(二) 一些问题的解决与优化已经正确地实现 ...
python3多线程趣味详解
python3的多线程很多人无法理解是怎么运行的,因此本文从程序猿的日常生活出发,写了一个由浅入深的多线程教程,这样子大家就不会觉得陌生了,多线程真的很简单很简单! 不要讲多线程局限于库或者框架,自己 ...
Python3 多线程的两种实现方式
最近学习 Python3 ,希望能掌握多线程的使用,在此做个笔记.同时也希望Python 牛人指点错误.关于线程的概念,前面简单总结了一下 java 的多线程,传送门:java 多线程概念,三种创建多 ...
python3 多线程获取数据实例
import requestsimport jsonfrom retrying import retryfrom lxml import etreefrom queue import Queueimp ...
Python3 多线程
多线程类似于同时执行多个不同程序,多线程运行有如下优点: 使用线程可以把占据长时间的程序中的任务放到后台去处理. 用户界面可以更加吸引人,这样比如用户点击了一个按钮去触发某些事件的处理,可以弹出一个进 ...
python3 多线程编程
python / 并发 / 线程 / 对象 / 编程 0.什么是线程 1. 多线程模块 2. 创建线程的方法 3. join()方法 4.isAlive()方法 5. name属性和daemon属 ...
Python多线程采集百度相关搜索关键词
百度相关搜索关键词抓取,读取txt关键词,导出txt关键词 #百度相关搜索关键词抓取,读取txt关键词,导出txt关键词 # -*- coding=utf-8 -*- import request ...

随机推荐

前端知识点回顾——koa和模板引擎
koa 基于Node.js的web框架,koa1只兼容ES5,koa2兼容ES6及以后. const Koa = requier("koa"); const koa = new K ...
Container 布局容器
Container 布局容器用于布局的容器组件,方便快速搭建页面的基本结构: <el-container>:外层容器.当子元素中包含 <el-header> 或 <el ...
Spring Aop（四）——基于Aspectj注解的Advice介绍
转发地址:https://www.iteye.com/blog/elim-2395315 4 基于Aspectj注解的Advice介绍之前介绍过,Advice一共有五种类型,分别是before.af ...
springmvc+spring+mybatis 项目配置
前提工作环境:JDK 1.8.Mysql 5.7.18.Intellij IDEA 2018.1.Tomcat 8.5.Maven 框架版本:Spring 4.2.0.RELEASE.SpringM ...
Flutter 贝塞尔曲线切割
现在人们对于网站的美感要求是越来越高了,所以很多布局需要优美的曲线设计.当然最简单的办法是作一个PNG的透明图片,然后外边放一个Container.但其内容如果本身就不是图片,只是容器,这种放入图片的 ...
Ubuntu 14.04安装Python3
1.添加源 sudo add-apt-repository ppa:fkrull/deadsnakes 2.更新 & 安装 sudo apt-get update sudo apt- pyth ...
分布式开发之:id生成器
一般分布式系统开发中不建议使用数据库自带的自增ID做id. 理由: 1.不方便分库分表.(TIDB时代待商榷) 2.不利于多机房多活部署. 那么如果不使用数据库的id.那怎么生成id呢. 1. Twi ...
django 之(五) --- RESTApi总结
RESTful django-rest-framework serializers 序列化工具.序列化与反序列化级联模型添加级联字段 nested 级联字段的key原来必须就是存在的隐性属性.自 ...
centos（linux）-Tomcat配置
1.在apache官网下载tomcat 2.解压缩:tar -zxvf apache-tomcat-7.0.73.tar.gz 注:是否在前面加上sudo根据自己的具体情况决定 3.配置环境变量 (1 ...
用CapsNets做电能质量扰动分类(2019-08-05)
当下最热神经网络为CNN,2017年10月,深度学习之父Hinton发表<胶囊间的动态路由>(Capsule Networks),最近谷歌正式开源了Hinton胶囊理论代码,提出的胶囊神经 ...

python3 多线程 采集 xpath

python3 多线程 采集 xpath的更多相关文章

随机推荐

热门专题

python3 多线程采集 xpath

python3 多线程采集 xpath的更多相关文章