#!/usr/bin/python
# -*- coding: UTF-8 -*-
'''Thread3 多线程测试采集'''
import threading,time,queue,Mongo_utils,mysqlUtils,requests,json,os
from lxml import html
etree = html.etree
exitFlag = 0
db = Mongo_utils.mongodb_15_27017task()
table = db["xx_anjuke_agent1"]
table_urls = db["xx_spider_urls1"]
list_pro = mysqlUtils.select_pro()
list_urls = table_urls.find().limit(2000)
insert_list = []
del_list = []
class myThread(threading.Thread):
def __init__(self,threadId,name,q):
threading.Thread.__init__(self)
self.threadId = threadId
self.name = name
self.q = q def run(self):
print("开始线程" + self.name)
spider(self.name,self.q)
print("退出线程" + self.name)
def head():
headers = {
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
"Accept-Encoding": "gzip, deflate, br",
"Accept-Language": "zh-CN,zh;q=0.9",
"cache-control": "max-age=0",
"upgrade-insecure-requests": "",
"Connection": "keep-alive",
"Content-Type": "text/html; charset=UTF-8",
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36",
}
return headers
def spider(name,q):
while not exitFlag:
queueLock.acquire()
if not workQueue.empty():
i = q.get()
queueLock.release()
_id = i["_id"]
city = i["city"]
zone = i["zone"]
street = i["street"]
urls = i["urls"]
headers = head()
try:
url = "https://。。。。。。。。。。。" % _id
# //,proxies=proxy
response_contact = requests.session().get(url=url, allow_redirects=False, headers=headers,
timeout=1)
print(response_contact.status_code)
if response_contact.status_code == 302:
print("验证")
print(url)
os._exit(0)
res = json.loads(response_contact.text) contact = res['data']
response_dl = requests.session().get(url=urls, allow_redirects=False, headers=headers,
timeout=1)
if response_dl.status_code == 302:
print("验证")
print(urls)
os._exit(0)
if ("获取成功") not in response_contact.text or ("房屋编码") not in response_dl.text:
print("pass")
pass
html = etree.HTML(response_dl.content)
name = html.xpath("//div[@class='brokercard-name']/text()")[0].strip()
company = html.xpath("//div[@class='broker-company']/p[1]/a/text()")[0]
company_url = html.xpath("//div[@class='broker-company']/p[1]/a/@href")[0]
store = html.xpath("//div[@class='broker-company']/p[2]/span/text()")[0]
# re = name, company, company_url, store, contact,_id,city,zone,street
staffNo = "https://anjuxingye1.anjuke.com/gongsi-jjr-%s/" % _id
mydict = {"_id": _id, "city": city, "zone": zone, "street": street, "name": name, "company": company,
"company_url": company_url,
"store": store, "site": "anjuke", "store_url": "", "staffNo": "", "store_url": "",
"staffNo": staffNo, "tag": "", "all_comm": ""
, "contact": contact} insert_list.append(mydict)
# del_list.append(urls)
print("size: %s" % insert_list.__len__())
except:
pass
print("%s processing %s" % (name, i))
else:
queueLock.release()
# time.sleep(1) threadList = range(0,5)
queueLock = threading.Lock()
workQueue = queue.Queue(50000)
threads = []
threadID = 1
for tName in threadList:
thread = myThread(threadID, tName, workQueue)
thread.start()
threads.append(thread)
threadID += 1 # 填充队列
queueLock.acquire()
for word in list_urls:
workQueue.put(word)
queueLock.release() # 等待队列清空
while not workQueue.empty():
pass
if insert_list.__len__() > 10:
try:
table.insert_many(insert_list, ordered=False)
# table_urls.remove({"urls": {"$in": del_list}})
print("插入1000")
except Exception as e:
print(e)
insert_list.clear()
del_list.clear()
# 通知线程是时候退出
# os._exit(0)
exitFlag = 1
try:
table.insert_many(insert_list, ordered=False)
# table_urls.remove({"urls": {"$in": del_list}})
print("插入1000")
except:
pass
insert_list.clear()
del_list.clear()
# 等待所有线程完成
for t in threads:
t.join()
print ("退出主线程")

python3 多线程 采集 xpath的更多相关文章

  1. Python3做采集

    出于某些目的,需要在网上爬一些数据.考虑到Python有各种各样的库,以前想试试Pycharm这个IDE,就决定用它了.首先翻完<深入Python3>这本书,了解了它的语法之类的.下面就开 ...

  2. python3 多线程爬虫模板

    原文:https://www.jianshu.com/p/06ae2373f560 1 import threading # 多线程模块 2 import queue # 队列模块 3 import ...

  3. 【Python数据分析】Python3多线程并发网络爬虫-以豆瓣图书Top250为例

    基于上两篇文章的工作 [Python数据分析]Python3操作Excel-以豆瓣图书Top250为例 [Python数据分析]Python3操作Excel(二) 一些问题的解决与优化 已经正确地实现 ...

  4. python3多线程趣味详解

    python3的多线程很多人无法理解是怎么运行的,因此本文从程序猿的日常生活出发,写了一个由浅入深的多线程教程,这样子大家就不会觉得陌生了,多线程真的很简单很简单! 不要讲多线程局限于库或者框架,自己 ...

  5. Python3 多线程的两种实现方式

    最近学习 Python3 ,希望能掌握多线程的使用,在此做个笔记.同时也希望Python 牛人指点错误.关于线程的概念,前面简单总结了一下 java 的多线程,传送门:java 多线程概念,三种创建多 ...

  6. python3 多线程获取数据实例

    import requestsimport jsonfrom retrying import retryfrom lxml import etreefrom queue import Queueimp ...

  7. Python3 多线程

    多线程类似于同时执行多个不同程序,多线程运行有如下优点: 使用线程可以把占据长时间的程序中的任务放到后台去处理. 用户界面可以更加吸引人,这样比如用户点击了一个按钮去触发某些事件的处理,可以弹出一个进 ...

  8. python3 多线程编程

    python / 并发 / 线程 / 对象 / 编程   0.什么是线程 1. 多线程模块 2. 创建线程的方法 3. join()方法 4.isAlive()方法 5. name属性和daemon属 ...

  9. Python多线程采集百度相关搜索关键词

    百度相关搜索关键词抓取,读取txt关键词,导出txt关键词 #百度相关搜索关键词抓取,读取txt关键词,导出txt关键词   # -*- coding=utf-8 -*- import request ...

随机推荐

  1. kotlin之操作符重载

    一元操作符 表达式 对应的函数 +a a.unaryPlus() -a a.unaryMinus() !a a.not() a++ a.inc() a-- a.dec() fun main(arg: ...

  2. kotlin之函数的范围和泛型函数

    kotlin 中函数可以定义为局部函数,成员函数以及扩展函数 局部函数:就是嵌套在函数内的函数 成员函数就是定义在类或者对象之内的函数 泛型函数就是函数可以带有泛型参数,可通过尖括号来指定

  3. cls只能调用一次实例 第二次None

    class Zarten(): _singleton = None def __new__(cls, *args, **kwargs): print('__new__') if not cls._si ...

  4. Json_DataMember签名作用

    [DataContract] public class ApiResponse { [DataMember] public string Time { get; set; } } 序列化和反序列,如果 ...

  5. python封装和解构

    封装 将多个值使用逗号分割,组合在一起 本质上,返回一个元组,只是省略了小括号 python的特有的语法,被很多语言学习借鉴 t1 = (1,2) #定义元组 t2 = 1,2 #将1和2封装成元组 ...

  6. [转]将西部数据 My Passport Wireless 移动存储连接到任何支持的云存储上

    原文标题:对西部数据 My Passport Wireless 移动存储进行 Linux 魔改 原文链接:https://linux.cn/article-8246-1.html 虽然 WD My P ...

  7. C# volatile 摘录

    C# 参考 volatile 关键字指示一个字段可以由多个同时执行的线程修改. 声明为 volatile 的字段不受编译器优化(假定由单个线程访问)的限制. 这样可以确保该字段在任何时间呈现的都是最新 ...

  8. 使用apache-commons-lang3架构对HTML内容进行编码和反编码

    String a="<br>"; String a_str=StringEscapeUtils.escapeHtml4(a);//编码 System.out.print ...

  9. POJ1149 PIGS 【最大流 + 构图】

    题目链接:http://poj.org/problem?id=1149 PIGS Time Limit: 1000MS   Memory Limit: 10000K Total Submissions ...

  10. odoo12安装指南

    声明:本指南默认已安装好Python3和pycharm及postgresql,odoo12的源码包 一. 1.在pycharm创建一个新的项目 建议创建在虚拟环境中 2.在pycharm的控制台下检验 ...