[python应用]python简单图片抓取

前言

emmmm

python简单图片抓取

 1 import requests

 2 import threading

 3 import queue

 4 from subprocess import Popen,PIPE

 5 from bs4 import BeautifulSoup as bs

 6 import urllib

 7 import base64

 8

 9

10 queue=queue.Queue()

11

12 class Jiandan(threading.Thread):

13         def __init__(self,queue):

14             threading.Thread.__init__(self)

15             self._queue=queue

16

17         def run(self):

18             while not self._queue.empty():

19                 url=self._queue.get_nowait()

20                 self.spider(url)

21

22         def spider(self,url):

23             headers={}

24             r=requests.get(url)

25             #选择lxml解析器

26             soup=bs(r.content,'lxml')

27             #查找html标签name为img的元素获取到它

28             imgs=soup.find_all(name='img',attrs={})

29

30             for img in imgs:

31                 if 'onload' in str(img):

32                     img=img['org_src']

33                 else:

34                     img=img['src']

35

36                 name=img.split('/')[-1]

37

38                 #获取的url没http:所以要加上http协议才能访问下载

39                 img="http:"+img

40

41                 #存储图片的路径地址

42                 lu="C:\\Users\\xhds1\\Desktop\\img\\"+name

43                 print(lu)

44                 urlretrieve(img,lu)  #urlretrieve模块下载图片

45                # print(name)

46

47 def main():

48     sss=""

49     for i in range(137,139):

50         riqi="20200121-%s"%(i)

51

52         #使用了base64模块进行URL编码  这里遇到的问题是编码后就成为了字节流类型

53         #查了资料才得知必须转换成字符串类型才行 纠结了好久

54         strbs=base64.b64encode(riqi.encode(encoding="utf-8")).decode("utf-8")

55

56         queue.put("https://jandan.net/pic/"+strbs+"#comments")

57

58     threads=[]

59     thread_count=5

60

61     for i in range(thread_count):

62         threads.append(Jiandan(queue))

63     for t in threads:

64         t.start()

65     for t in threads:

66         t.join()

67

68 if __name__=='__main__':

69     main()

参考学习：

浅析Python3中的bytes和str类型:https://www.cnblogs.com/chownjy/p/6625299.html

https://www.cnblogs.com/OliverQin/p/8641700.html

[python应用]python简单图片抓取的更多相关文章

arpspoof+driftnet+ ARP欺骗简单图片抓取
arpspoof+driftnet+ ARP欺骗简单图片抓取 driftnet是一款简单而使用的图片捕获工具,可以很方便的在网络数据包中抓取图片.该工具可以实时和离线捕获指定数据包中是图片环境受害 ...
Python爬虫之网页图片抓取
一.引入这段时间一直在学习Python的东西,以前就听说Python爬虫多厉害,正好现在学到这里,跟着小甲鱼的Python视频写了一个爬虫程序,能实现简单的网页图片下载. 二.代码 __author ...
python爬虫beta版之抓取知乎单页面回答（low 逼版）
闲着无聊,逛知乎.发现想找点有意思的回答也不容易,就想说要不写个爬虫帮我把点赞数最多的给我搞下来方便阅读,也许还能做做数据分析(意淫中--) 鉴于之前用python写爬虫,帮运营人员抓取过京东的商品品 ...
利用python脚本（xpath）抓取数据
有人会问re和xpath是什么关系?如果你了解js与jquery,那么这个就很好理解了. 上一篇:利用python脚本(re)抓取美空mm图片 # -*- coding:utf-8 -*- from ...
Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...
Python爬虫实战六之抓取爱问知识人问题并保存至数据库
大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法正则表 ...
一次Python爬虫的修改，抓取淘宝MM照片
这篇文章是2016-3-2写的,时隔一年了,淘宝的验证机制也有了改变.代码不一定有效,保留着作为一种代码学习. 崔大哥这有篇>>小白爬虫第一弹之抓取妹子图不失为学python爬虫的绝佳教 ...
基于Python PIL实现简单图片格式转化器
基于Python PIL实现简单图片格式转化器目录基于Python PIL实现简单图片格式转化器 1.简介 2.前期资料准备 2.1.1如何实现图片格式转换? 2.1.2如何保存需要大小的图片? ...
php远程图片抓取存放到本地路径并生成缩略图
private function _getcontent($content) { $img_dir='../Public/Img/Ycimg'; //远程图片抓取存放 ...

随机推荐

Pytest之使用断言指定异常
官网的翻译是使用断言抛出指定异常,当我觉得他这里更应该指的是 Pytest 断言错误类型# 使用raise在测试方法中指定异常的类型,这点和java还是蛮像的呢,具体示例如下: import pyte ...
matplotlib中文标签乱码
在python的安装目录下找到~\Lib\site-packages\matplotlib\mpl-data 将字体文件(例如黑体SimHei.ttf,一般C:\Windows\Fonts路径下就有 ...
IntelliJ IDEA 2020.2 x64 激活 2020-09-18亲测有效
idea 激活,查阅许多资源和文章,激活码都失效,无意发现该资源(https://macwk.com/article/jetbrains-crack),亲测有效(2020-09-18),在此记录,以备 ...
ssh免密登陆 2
应用场景之一:java 程序调用shell脚本,通过ssh 免密登陆数据库服务器,进行数据的抽取打包工作. 免密设置步骤: 1.客户端生成公私钥,在任意目录下执行命令ssh-keygen(一路回车默认 ...
Java面试题集（二）list与Map相关知识（1.2）
前言: 在平常的写java程序中,常用除了8种常用数据类型,String对象外,还有集合类,例如ArrayList,HashMap等,这些最常用. 一.List接口 List接口为Collection ...
vue-cli2.0创建项目步骤
Vue是近两年来比较火的一个前端框架(渐进式框架吧),与reactjs和angularjs三国鼎立,我不是职业前端,做过Vue,了解了一下React,听说过Angluar.我只能这么说,我来晚了,没经 ...
jvm内存查看方法----个人参考版
查看设置JVM内存信息 1 Runtime.getRuntime().maxMemory(); //最大可用内存,对应-Xmx 2 3 Runtime.getRuntime().freeMemory( ...
vue-main.js中new vue（）的解析
在main.js中,代码如下 import Vue from 'vue' import App from './App.vue' new Vue({ router, render: h => h ...
pycharm配置django rest framework
安装django rest framework pip install 添加rest_framework app 在settings.py INSTALLED_APPS = [ 'django.co ...
NB-IoT成为3GPP后会有哪些优势
NB-IoT无线接入的设计使用了很多LTE设计大的原则,并且得到了传统蜂窝网络和芯片组供应商的支持,使MBB取得了成功.NB-IoT采用与LTE(E-UTRA)相同的设计原则,尽管它使用单独的新载波, ...

[python应用]python简单图片抓取

[python应用]python简单图片抓取的更多相关文章

随机推荐

热门专题