利用request、beautifulsoup、xml写多线程爬虫

# -*- coding:UTF-8 -*-

import requests,time

from collections import OrderedDict

import threading

from bs4 import BeautifulSoup as bp

t3 = time.time()

ths = []  # 存放线程

def get(num):

    dic = OrderedDict()

    n = str(num)

    data = {'basename':'BASENAME11',

    'where':'2PLDYDY1',

    'dbpage':n,

    'pagecount':'',

    'order':'ORDER1,ORDER2',

    'orderbytype':'ASC',

    'searchList':'SEARCHLIST11',

    'isKz':'',

    'id':'0.40519130290516947'}

    header1 = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36','Referrer':'http://txl.xxx.cn/xxx/center.do?path=txl_index'}

    page = requests.post('http://txl.xxx.cn/xxx/dBSearchForTxlAction.do',headers=header1,data=data)  # 自定义请求头，这些请求头内容是在浏览器上看到的

    t = page.text

    soup = bp(t,'xml')  #使用beautifulsoup解析xml文件，解析html时，将xml改为lxml

    all_body = soup.find_all('EmailResult')  #查找EmailResult标签包含的所有内容，生成一个列表

    for info in all_body:

        print(u'%s'%info.NAME.text.ljust(10,'　'),info.FENJI.text.ljust(20,' '),info.SHOUJI.text.ljust(30),info.EMAIL.text.ljust(30),info.ZHIWU.text)  # 根据标签查找相应的text文本内容即可

for num in range(75):

    t1 = threading.Thread(target=get, args=(num,))

    ths.append(t1)

for t in ths:

    t.start()

for ttt in ths:

    ttt.join()

t4 = time.time()

tt = t4 - t3

print(tt)

利用request、beautifulsoup、xml写多线程爬虫的更多相关文章

第14.18节爬虫实战4： request+BeautifulSoup+os实现利用公众服务Wi-Fi作为公网IP动态地址池
写在前面:本文相关方法为作者独创,仅供参考学习爬虫技术使用,请勿用作它途,禁止转载! 一. 引言在爬虫爬取网页时,有时候希望不同的时候能以不同公网地址去爬取相关的内容,去网上购买地址资源池是大部分人 ...
第14.16节爬虫实战2：赠人玫瑰，手留余香！ request+BeautifulSoup实现csdn博文自动点赞
写在前面:本文仅供参考学习,请勿用作它途,禁止转载! 在<第14.14节爬虫实战准备:csdn博文点赞过程http请求和响应信息分析>老猿分析了csdn博文点赞处理的http请求和响应报 ...
第14.17节爬虫实战3： request+BeautifulSoup实现自动获取本机上网公网地址
一. 引言一般情况下,没有特殊要求的客户,宽带服务提供商提供的上网服务,给客户家庭宽带分配的地址都是一个宽带服务提供商的内部服务地址,真正对外访问时通过NAT进行映射到一个公网地址,如果我们想确认自 ...
python爬虫入门（四）利用多线程爬虫
多线程爬虫先回顾前面学过的一些知识 1.一个cpu一次只能执行一个任务,多个cpu同时可以执行多个任务2.一个cpu一次只能执行一个进程,其它进程处于非运行状态3.进程里包含的执行单元叫线程,一个进 ...
Python：Scrapy（二）实例分析与总结、写一个爬虫的一般步骤
学习自:Scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 - 知乎 Python Scrapy 爬虫框架实例(一) - Blue·Sky - 博客园 1.声明Item 爬虫爬取的目标是从非 ...
python多线程爬虫设计及实现示例
爬虫的基本步骤分为:获取,解析,存储.假设这里获取和存储为io密集型(访问网络和数据存储),解析为cpu密集型.那么在设计多线程爬虫时主要有两种方案:第一种方案是一个线程完成三个步骤,然后运行多个线程 ...
零基础写python爬虫之使用Scrapy框架编写爬虫
网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据.虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间.Scrapy是一个使用Python编写的,轻 ...
【python3两小时快速入门】入门笔记03：简单爬虫+多线程爬虫
作用,之间将目标网页保存金本地 1.爬虫代码修改自网络,目前运行平稳,博主需要的是精准爬取,数据量并不大,暂未加多线程. 2.分割策略是通过查询条件进行分类,循环启动多条线程. 1.单线程简单爬虫(第 ...
利用SpringBoot+Logback手写一个简单的链路追踪
目录一.实现原理二.代码实战三.测试最近线上排查问题时候,发现请求太多导致日志错综复杂,没办法把用户在一次或多次请求的日志关联在一起,所以就利用SpringBoot+Logback手写了一个简 ...

随机推荐

C# WPF Webbrowser 强制所有网页链接在同一页面打开
只要搞懂Winform的 WPF稍微改一改就可以了主类:负责跳转的 using System; using System.Collections.Generic; using System.Com ...
SQL数据库查询语言（1）
目录 MySQL数据库 MySQL安装与配置 DDL数据定义语言创建数据库查看.删除数据库修改.备份.恢复数据库创建表修改表 MySQL常用数据类型 DML数据操纵语言 Insert语句 m ...
python3关于date和time的标准库
python3中关于日期和时间的标准库datetime和time,之前都是用的时候随用随查,今天系统的看一下用这两个库可以做些什么. 1.time标准库 #首先添加一个time对象,看一下该对象的属性 ...
Python里面的负号的各种神奇用法？来填坑啦
1.x.reshape(-1,2) x = np.linspace(1,10,10) x.reshape(-1,2) reshape(-1,2)里-1的应该是不管多少行,按两列算,行数自动算出.同理, ...
数学【洛谷P4071】 [SDOI2016]排列计数
P4071 [SDOI2016]排列计数求有多少种长度为 n 的序列 A,满足以下条件: 1 ~ n 这 n 个数在序列中各出现了一次若第 i 个数 A[i] 的值为 i,则称 i 是稳定的.序列 ...
百度地图中使用mouseover事件获取经纬度时无法拿到鼠标所在位置的经纬度。
用百度2.0的话使用mousemove 鼠标在地图区域移动过程中触发此事件.mouseover参数e中没有point参数
elemetnui 分页..解决 bug
:current-page.sync="thisCurPage" 的确会修改页码,但是会触发一个 bug... 比如当前选择的是第二页,使用 js 模拟点击(或者修改父组件 ...
【算法笔记】B1004 成绩排名
1004 成绩排名 (20 分) 读入 n(>0)名学生的姓名.学号.成绩,分别输出成绩最高和成绩最低学生的姓名和学号. 输入格式: 每个测试输入包含 1 个测试用例,格式为第 1 行:正整数 ...
DropDownList绑定及修改
DropDownList绑定及修改 http://www.cnblogs.com/hulang/archive/2010/12/29/1920662.html ? 1 2 3 4 5 6 7 8 ...
POJ2248 Addition Chains 迭代加深
不知蓝书的标程在说什么,,,,于是自己想了一下...发现自己的代码短的一批... 限制搜索深度+枚举时从大往小枚举,以更接近n+bool判重,避免重复搜索 #include<cstdio> ...

利用request、beautifulsoup、xml写多线程爬虫

利用request、beautifulsoup、xml写多线程爬虫的更多相关文章

随机推荐

热门专题