Python3.6多线程爬虫

Python版本 3.6

简单写一个爬虫,在写的过程熟悉Python语法,不得不说Python用起来真666;

　　代码功能是访问网站首页将所有a标签值作为文件夹,将当前网页所有图片下载对应文件夹中;其实还有很多很多需要修改和完善的地方比如异常,多线程,递归等;以后有机会再说吧.欢迎拍砖

 1 # -*- UTF-8 -*-

 2 from urllib import request

 3 from bs4 import BeautifulSoup

 4 import os

 5 import time, threading

 6

 7

 8 exe_Count = 1

 9 aList = []

10

11 def CallView(url, timeout, directoryPath,exe_count):

12     try:

13         listAvalue = []

14         headers = {

15             "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2716.5 Safari/537.36",

16             "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"

17         }

18         rep = request.Request(url, headers=headers)

19         response = request.urlopen(rep, timeout=timeout)

20         soup = BeautifulSoup(response)

21         # 获取a标签href 属性并写入list

22         for a in soup.find_all("a"):

23             if a.string is None:

24                 continue

25             if not a.attrs["href"].strip() in aList:

26                 aList.append(a.attrs["href"].strip())

27                 listAvalue.append([a.string.strip()[0:11], a.attrs["href"].strip()])

28             else:

29                 continue

30         # 创建不存在的目录

31         if not os.path.exists(directoryPath):

32             os.mkdir(directoryPath)

33         print("新目录：" + directoryPath)

34         # 开启线程递归

35         thread = threading.Thread(target=ForRequest, args=(listAvalue, timeout, directoryPath,exe_count))

36         thread.start()

37         listImgSrc = []

38         # 获取img标签 并下载

39         for img in soup.find_all("img"):

40             try:

41                 imgSrc = img.attrs["src"]

42                 print(imgSrc)

43                 # 过滤重复src

44                 if not imgSrc in listImgSrc:

45                     listImgSrc.append(imgSrc)

46                     # 读取图片

47                     rep = request.Request(imgSrc)

48                     response = request.urlopen(rep, timeout=timeout)

49                     # 写入图片

50                     filepath = directoryPath + "/" + imgSrc.split('/')[len(imgSrc.split('/')) - 1]

51                     with open(filepath, "wb") as o:

52                         o.write(response.read())

53             except:

54                 print("访问图片或者写入本地Error")

55     except request.HTTPError as e:

56         print(e.code)

57     except:

58         print("CallView Error")

59

60

61 def ForRequest(listA, timeout, directoryPath,exe_count):

62     print("当前已执行：" + str(exe_count) + " 次")

63     #调用次数超过200跳出

64     if  exe_count == 2:

65         thread = threading.current_thread()

66         raise SystemError("正在停止线程")

67     else:

68         exe_count = exe_count + 1

69

70     for info in listA:

71         directoryChildPath = directoryPath + "/" + info[0]

72         if not os.path.exists(directoryChildPath):

73             os.mkdir(directoryChildPath)

74         CallView(info[1], timeout, directoryChildPath, exe_count)

75

76 try:

77     print("爬虫开始活动了")

78     CallView("http://www.xxxxx.com", 5000, "D:/PythonTest/Img/素材公社",exe_Count);

79     print("爬虫正在偷偷活动,不要着急哦！")

80 except:

81     print("Error")

Python3.6多线程爬虫的更多相关文章

【python3两小时快速入门】入门笔记03：简单爬虫+多线程爬虫
作用,之间将目标网页保存金本地 1.爬虫代码修改自网络,目前运行平稳,博主需要的是精准爬取,数据量并不大,暂未加多线程. 2.分割策略是通过查询条件进行分类,循环启动多条线程. 1.单线程简单爬虫(第 ...
python多线程爬虫设计及实现示例
爬虫的基本步骤分为:获取,解析,存储.假设这里获取和存储为io密集型(访问网络和数据存储),解析为cpu密集型.那么在设计多线程爬虫时主要有两种方案:第一种方案是一个线程完成三个步骤,然后运行多个线程 ...
Python多线程爬虫与多种数据存储方式实现(Python爬虫实战2)
1. 多进程爬虫对于数据量较大的爬虫,对数据的处理要求较高时,可以采用python多进程或多线程的机制完成,多进程是指分配多个CPU处理程序,同一时刻只有一个CPU在工作,多线程是指进程内部有多个类 ...
多线程爬虫Miner
多线程爬虫Miner 需要配置项:1.URL包含关键字.2.存储方式:DB-数据库存储;FILE-文件存储.3.爬取页面最大深度.4.下载页面线程数.5.分析页面线程数.6.存储线程数. ------ ...
python爬虫入门（四）利用多线程爬虫
多线程爬虫先回顾前面学过的一些知识 1.一个cpu一次只能执行一个任务,多个cpu同时可以执行多个任务2.一个cpu一次只能执行一个进程,其它进程处于非运行状态3.进程里包含的执行单元叫线程,一个进 ...
[原创]一款小巧、灵活的Java多线程爬虫框架（AiPa）
1.简介 AiPa 是一款小巧,灵活,扩展性高的多线程爬虫框架. AiPa 依赖当下最简单的HTML解析器Jsoup. AiPa 只需要使用者提供网址集合,即可在多线程下自动爬取,并对一些异常进行处理 ...
python多线程爬虫+批量下载斗图啦图片项目（关注、持续更新）
python多线程爬虫项目() 爬取目标:斗图啦(起始url:http://www.doutula.com/photo/list/?page=1) 爬取内容:斗图啦全网图片使用工具:requests ...
抓包分析、多线程爬虫及xpath学习
1.抓包分析 1.1 Fiddler安装及基本操作由于很多网站采用的是HTTPS协议,而fiddler默认不支持HTTPS,先通过设置使fiddler能抓取HTTPS网站,过程可参考(https:/ ...
【Python爬虫实战】多线程爬虫---糗事百科段子爬取
多线程爬虫:即程序中的某些程序段并行执行,合理地设置多线程,可以让爬虫效率更高糗事百科段子普通爬虫和多线程爬虫分析该网址链接得出:https://www.qiushibaike.com/8hr/pag ...
Python爬虫开发【第1篇】【多线程爬虫及案例】
糗事百科爬虫实例: 地址:http://www.qiushibaike.com/8hr/page/1 需求: 使用requests获取页面信息,用XPath / re 做数据提取获取每个帖子里的用户 ...

随机推荐

如何通过Java代码向Word文档添加文档属性
Word文档属性包括常规.摘要.统计.内容.自定义.其中摘要包括标题.主题.作者.经理.单位.类别.关键词.备注等项目.属性相当于文档的名片,可以添加你想要的注释.说明等.还可以标注版权. 今天就为大 ...
django框架之drf(部分讲解)
一.各个视图子类两个视图基类五个视图扩展类九个视图子类----->视图类,不需要额外继承GenericAPIView,只需要继承九个州其中之一,就会有某个或某几个接口路由 urlpatt ...
为K8S集群准备Ceph存储
随着K8S存储接口逐渐成熟并顺势推出CSI接口规范后,原来"in-tree"(树内)模式的很多存储插件也逐步迁移到了"out-of-tree"(树外)模式的CS ...
LG P3768 简单的数学题
\(\text{Problem}\) 求 \[\left(\sum_{i=1}^n \sum_{j=1}^n i j \gcd(i,j)\right) \bmod p \] \(n \le 10^{1 ...
JavaScript 如何验证 URL
前言当开发者需要为不同目的以不同形式处理URL时,比如说浏览器历史导航,锚点目标,查询参数等等,我们经常会借助于JavaScript.然而,它的频繁使用促使攻击者利用其漏洞.这种被利用的风险是我们必 ...
Android：LitePal 在第一次创建表之后第二次创建新的表不生效
因为业务需求的增长,后续需要继续创建新的表,有可能代码没有任何报错,同时数据库也没有任何新的表加入进来. 修改 litepal.xml 的 version,如果之前是 1,那么修改为 2,总之比之前 ...
ArcGIS for Android 实现加载地图
创建第一个应用 1.前期项目准备 1.1. 创建新工程新建一个空活动项目选择语言.平台,修改命名等 1.2. 添加ArcGIS SDK build.gradle (Project: <pro ...
Postgresql表膨胀率计算
一.简介 PostgreSQL自带了pgstattuple模块,可用于精确计算表的膨胀率.譬如这里的tuple_percent字段就是元组实际字节占关系总大小的百分比,用1减去该值即为膨胀率. 二.示 ...
Unity的超大开放世界解决方案
https://blog.csdn.net/u011105442/article/details/104614043
【转载】python解决文本乱码问题及文本二进制读取后的处理
转自:https://blog.csdn.net/u011316258/article/details/50450079 python解决文本乱码问题及文本二进制读取后的处理吲哚乙酸当文本中含有很 ...

Python3.6多线程爬虫

Python3.6多线程爬虫的更多相关文章

随机推荐

热门专题