umei-spider

 1 #!/usr/bin/python3

 2

 3 import requests

 4 from bs4 import BeautifulSoup

 5 from contextlib import closing

 6 import time

 7 import uuid

 8

 9

10 class SevenOneSixZero:

11     def __init__(self):

12         self.photo_id = []

13         self.url = 'http://www.umei.cc/tags/xiezhen_1.htm'

14         self.urls = []

15         self.headers = {

16             'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'

17         }

18

19     def get_ids(self):

20         res = requests.get(url=self.url, headers=self.headers)

21

22     def get_page_content(self, url):

23         res = requests.get(url, headers=self.headers)

24         r = res.text

25         # response.encoding是指从HTTP的header中猜测的响应内容编码方式 如果header中不存在charset，则默认编码为ISO-8859-1

26         #  print(res.encoding)

27         # response.apparent_encoding是指从内容中分析出的响应内容编码方式。

28         #  print(res.apparent_encoding)

29         # requests内部的 utils 也提供了一个从返回 body 获取页面编码的函数get_encodings_from_content，这样如果服务器返回的头不含 Charset，再通过 get_encodings_from_content 就可以知道页面的正确编码了

30         # print(requests.utils.get_encodings_from_content(r))

31         return r.encode(res.encoding).decode(res.apparent_encoding)

32

33     def get_img(self):

34         res = self.get_page_content(self.url)

35         soup = BeautifulSoup(res, 'lxml')

36         img_list = soup.select('body > div.wrap > div.TypeList > ul > li > a > img')

37         return img_list

38

39     def get_img_src_list(self):

40         img_list = []

41         for img in self.get_img():

42             img_dict = {

43                 'src': img.get('src')

44             }

45             img_list.append(img_dict)

46         return img_list

47

48     def download_img(self, img_list):

49         """

50         下载图片

51         :param img_list:

52         :return:

53         """

54         i = 0

55         for img_dic in img_list:

56           #  time.sleep(0.1)

57             src = img_dic['src']

58             res = requests.get(src, self.headers)

59             i = i + 1

60             with closing(res) as r:

61                 name = uuid.uuid1()

62                 with open('D:/python/imgs/{}.jpg'.format(name), 'ab+') as f:

63                     for chunk in r.iter_content(chunk_size=1024):

64                         if chunk:

65                             f.write(chunk)

66                             f.flush()

67                     print('成功下载第{}张图：{}.jpg'.format(i,name ))

68

69     def get_url_list(self, start, end):

70         """

71         获取url列表

72         :param start:

73         :param end:

74         :return:

75         """

76         for i in range(start, end):

77             self.urls.append('http://www.umei.cc/tags/xiezhen_{}.htm'.format(i))

78         return self.urls

79

80

81 if __name__ == '__main__':

82     seven = SevenOneSixZero()

83

84     for url in seven.get_url_list(22, 30):

85         seven.url = url

86         img_list = seven.get_img_src_list()

87         seven.download_img(img_list)

umei-spider的更多相关文章

spider RPC入门指南
本部分将介绍使用spider RPC开发分布式应用的客户端和服务端. spider RPC中间件基于J2SE 8开发,因此需要确保服务器上安装了JDK 8及以上版本,不依赖于任何额外需要独立安装和配置 ...
Scrapy:为spider指定pipeline
当一个Scrapy项目中有多个spider去爬取多个网站时,往往需要多个pipeline,这时就需要为每个spider指定其对应的pipeline. [通过程序来运行spider],可以通过修改配置s ...
spider RPC过滤器
spider支持在请求执行前或完成后进行特殊处理,比如安全性检查.敏感字段混淆等等.为此,spider提供了BeforeFilter和AfterFilter.其执行位置如下图所示: 流水线插件配置在s ...
spider RPC插件化体系
为了满足灵活扩展的需要,spider支持灵活的自定义插件扩展,从功能上来说,插件和过滤器的差别在于过滤器不会阻止请求的执行同时对于主程序不会有API上的影响(比如servlet 过滤器和监听器)(最多 ...
spider RPC管理接口
为了在独立管理模式下尽可能的容易运行时排查问题,spider中间件提供了一系列restful api用于动态管理当前节点的路由,下游节点等.目前支持的RESTFUL API如下所示: 功能服务号 R ...
spider RPC高级特性
多租户 spider原生支持多租户部署,spider报文头对外开放了机构号.系统号两个属性用于支持多租户场景下的路由. 多租户场景下的路由可以支持下述几种模式: n 系统号: n 系统号+服务号( ...
spider RPC安全性
spider提供了多重安全保障机制,目前主要支持接入握手校验,报文完整性校验,报文加密,报文长度检查四种机制. 接入认证 spider使用两次握手校验,其握手流程如下: 签名AES加密的方式实现. l ...
spider RPC开发指南
协议与兼容性 spider使用java语言开发,使用Spring作为IoC容器,采用TCP/IP协议,在此基础上,结合SaaS系统模式的特性进行针对性和重点设计,以更加灵活和高效的满足多租户系统.高可 ...
spider 配置文件参考
spider有一个配置文件spider.xml,为xml格式,spider.xml采用DTD进行管理,用于管理spider的所有特性.路由.高可用等. 配置文件支持三种不同的方式进行指定: 1. 通过 ...
spider RPC性能测试报告
测试环境部署结构测试用例类别说明请求报文 194字节({"systemId":"PL","appVersion":"qq ...

随机推荐

Java语言中：float、double数据类型在内存中是如何存储的
引用参考 https://www.cnblogs.com/chenmingjun/p/8415464.html#4291528 https://blog.csdn.net/yansmile1/arti ...
Oracle权限管理详解（1）
详见:https://www.cnblogs.com/yw0219/p/5855210.html Oracle 权限权限允许用户访问属于其它用户的对象或执行程序,ORACLE系统提供三种权限:Obj ...
DICOM文件修改方法
/// <summary> /// 读取dicom文件 /// </summary> /// <param name="srcdirectory"&g ...
centos 6.4系统双网卡绑定配置详解
Linux双网卡绑定实现就是使用两块网卡虚拟成为一块网卡(需要交换机支持),这个聚合起来的设备看起来是一个单独的以太网接口设备,通俗点讲就是两块网卡具有相同的IP地址而并行链接聚合成一个逻辑链路工作. ...
修改office2019安装位置，自定义安装需要的功能
更新:2019.5.30楼主本人本次重装系统后装office2019再次测试,没有任何问题,没认真看文章,自己胡乱一同操作,导致各种问题的,出了错就就瞎评论,说博主误导人,对你们这种人就是呵呵.左转不 ...
PAT Advanced 1153 Decode Registration Card of PAT (25 分)
A registration card number of PAT consists of 4 parts: the 1st letter represents the test level, nam ...
PAT Advanced 1155 Heap Paths (30 分)
In computer science, a heap is a specialized tree-based data structure that satisfies the heap prope ...
linux——常用命令
学习linux命令地址: 学习命令地址,可参考http://linux.51yip.com/ 在文件中搜索指定字符串 grep -i "requirepass" redis.con ...
PEP8规范 Python
前言从很多地方搬运+总结,以后根据这个标准再将python的一些奇技淫巧结合起来,写出更pythonic的代码~ PEP8 编码规范英文原版请点击这里以下是@bobo的整理,原文请见PEP8 P ...
2sum问题求解
什么是2sum问题呢?举个例子就明白了:对于数列:[0.1.2.3.4.5.6.7.8.9],求两数相加=9的所有两数的组合,所以结果为:[0.9],[1.8],[2.7],[3.6],[4.5].所 ...

umei-spider

umei-spider

umei-spider的更多相关文章

随机推荐

热门专题