python写的百度图片爬虫

学了一下python正则表达式，写一个百度图片爬虫玩玩。

当技术遇上心术不正的人，就成我这样的2B青年了。

python3.6开发。程序已经打包好，下载地址: http://pan.baidu.com/s/1bpalugf 密码：kfk4

#!/usr/local/env python

from tkinter import *

import re,os,requests,hashlib,threading

from PIL import Image

class Application(Frame):

	def __init__(self, master=None):

		Frame.__init__(self, master)

		self.school=threading.local()

		self.pack()

		self.createWidgets()

	def createWidgets(self):

		self.nameLabel=Label(self,text='请输入关键词:')

		self.nameLabel.grid(row=0,sticky=W)

		self.nameInput = Entry(self)

		self.nameInput.grid(row=0,column=1)

		self.picys=IntVar()

		self.Checkbutton = Checkbutton(self,text='图片压缩',variable=self.picys)

		self.Checkbutton.grid(row=1,column=0,columnspan=2,sticky=W)

		self.alertButton = Button(self, text='下载',command=self.gorun)

		self.alertButton.grid(row=1,column=1,sticky=E)

	def cddir(self):

		keyword=self.nameInput.get()

		os.chdir('C:\\Users\\Administrator\\Desktop\\')

		if os.path.exists(keyword) ==False:

			os.mkdir(keyword)

		os.chdir(keyword)

	def gorun(self):

		self.cddir()

		word=self.nameInput.get()

		x=0

		for i in range(5):

			t=threading.Thread(target=self.xiazai,args=(x,word,))

			t.start()

			x+=20

			if i == 4:

				t.join()

				self.delfile()

				if self.picys.get() == 1:

					self.suoxiao()

	def xiazai(self,page,word):

		baidupn=self.school.student=page

		num=1

		for i in range(50):

			url='https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8'

			payload={'word':word,'pn':baidupn}

			html = requests.get(url,params=payload).text

			regular='"objURL":"(.*?)",'

			pic=re.findall(regular,html)

			baidupn+=100

			for tu in pic:

				try:

					dl=requests.get(tu,timeout=60)

					pic_name=os.path.basename(tu)

					if pic_name in os.walk(os.getcwd()):

						continue

					else:

						if ('?' in pic_name) or ('&' in pic_name) or ('.' not in pic_name):

							pic_name='%s%s' %(num,'.jpg')

						with open(pic_name,"wb") as code:

							code.write(dl.content)

							requests.session().keep_alive = False

							dl.close()

						num+=1

				except requests.exceptions.ConnectionError:

					#print('这张图片下载失败了,图片地址',tu)

					continue

	def suoxiao(self):

		self.cddir()

		filedir=os.walk(os.getcwd())

		for i in filedir:

			for tplb in i[2]:

				if ('jpg' in tplb) or ('jpeg' in tplb):

					try:

						im=Image.open(tplb)

						w,h=im.size

						if w > 500:

							im.thumbnail((w//2,h//2))

							im.save(tplb,'jpeg')

						im.close()

					except OSError:

						print('跳过此文件')

	def md5sum(self,filename):

		f=open(filename, 'rb')

		md5=hashlib.md5()

		while True:

			fb = f.read(8096)

			if not fb:

				break

			md5.update(fb)

		f.close()

		return (md5.hexdigest())

	def delfile(self):

		all_md5={}

		self.cddir()

		filedir=os.walk(os.getcwd())

		for i in filedir:

			for tlie in i[2]:

				if self.md5sum(tlie) in all_md5.values():

					os.remove(tlie)

				else:

					all_md5[tlie]=self.md5sum(tlie)

app=Application()

app.master.title('图片下载器')

app.mainloop()

无耻的求一下赞助

python写的百度图片爬虫的更多相关文章

百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...
用python写一个百度翻译
运行环境: python 3.6.0 今天处于练习的目的,就用 python 写了一个百度翻译,是如何做到的呢,其实呢就是拿到接口,通过这个接口去访问,不过中间确实是出现了点问题,不过都解决掉了先晾 ...
用 Python 批量下载百度图片
为了做一个图像分类的小项目,需要制作自己的数据集.要想制作数据集,就得从网上下载大量的图片,再统一处理. 这时,一张张的保存下载,就显得很繁琐.那么,有没有一种方法可以把搜索到的图片直接下载到本地 ...
百度图片爬虫-python版
self.browser=imitate_browser.BrowserBase() self.chance=0 self.chanc ...
python 百度图片爬虫
# -*- coding:utf-8 -*- #https://blog.csdn.net/qq_32166627/article/details/60882964 import requests i ...
Python练习册第 0013 题：用 Python 写一个爬图片的程序，爬这个链接里的日本妹子图片 :-)，(http://tieba.baidu.com/p/2166231880)
这道题是一道爬虫练习题,需要爬链接http://tieba.baidu.com/p/2166231880里的所有妹子图片,点进链接看一下,这位妹子是日本著名性感女演员--杉本由美,^_^好漂亮啊,赶紧 ...
python写的百度贴吧相册下载
突然想搞个这样的工具,写来写去都不知道在干嘛了,本来两个文件,现在整合在一起了. 乱得不行,懒得整理了,能用就行. 下载部分用了多线程,但是下载一个文件还是用的单线程,也就是没管http头的range ...
【python小练】图片爬虫之BeautifulSoup4
Python3用不了Scrapy! Python3用不了Scrapy! Python3用不了Scrapy! [重要的事情说三遍,据说大神们还在尝试把scrapy移植到python3,特么浪费我半个小时 ...
python爬取百度图片
import requests import re from urllib import parse import os from threading import Thread def downlo ...

随机推荐

Metasploit生成木马入侵安卓手机
开始首先你需要一个Metasploit(废话) Linux: sudo apt install metasploit-framework Termux: 看这里指令 sudo su //生成木马文 ...
【pwn】V&N2020 公开赛 simpleHeap
[pwn]V&N2020 公开赛 simpleHeap 1.静态分析首先libc版本是ubuntu16的2.23版本,可以去buu的资源处下载然后checksec一下,保护全开拖入IDA ...
抓包分析与mock实战
Charles下载安装官网下载安装:https://www.charlesproxy.com/ 电脑证书配置如果不配置证书,无法抓取https协议配置证书: 1 - 打开Charles,在hel ...
[FatFs 学习] SD卡总结-SPI模式
SD卡为移动设备提供了安全的,大容量存储解决方法.它本身可以通过两种总线模式和MCU进行数据传输,一种是称为SD BUS的4位串行数据模式,另一种就是大家熟知的4线SPI Bus模式.一些廉价,低端的 ...
走进Task（1）：什么是Task
目录前言从表象讲起 Task 从何而来 Task 常见用法 Task 的分类按是否包含 Result 分,也就是是否是泛型 Task 按得到 Task 的方式,可以分为对 Task 进行分解 ...
unity3d，java，c#，python，rospy的socket通信测试
1.C#在与其他人通信时,最好不要用tcpclient来承接其他语言,会收不到用户名,最好都用socket. 2.unity3d在与java通信时,对方返回我unity3d发的数据流会打印收到一个类, ...
Chrome本地跨域请求设置，实现HTML模板页
按照需求,公司现在需要通过第三方的API反馈的数据,进行在本地就可以打开的静态页面程序(完全脱离IIS等服务器).为了更好的维护项目,需要实现静态HTML引入HTML模板,完成ASP.NET模板页的类 ...
Java on Visual Studio Code的更新 – 2022年1月
大家好,欢迎来到 Visual Studio Code Java 更新 1 月版!这是我们新年的第一篇博客,我们将回顾 2021 年的亮点,并分享我们 2022 年的产品路线图!除此之外我们还有一些令 ...
Kubernetes 微服务最佳实践
本文由个人笔记 ryan4yin/knowledge 整理而来本文主要介绍我个人在使用 Kubernetes 的过程中,总结出的一套「Kubernetes 配置」,是我个人的「最佳实践」. 其中大部 ...
Tomcat访问项目出现HTTP状态404-未找到，类型状态报告描述源服务器未能找到目标资源的表示或者是不愿公开一个已经存在的资源表示。Apache Tomcat/9.0.40
错误提示如图,无任何消息提示,控制台也没有错误. 解决方法: IDEA,上方菜单栏点击Run–>Edit Configurations-,选择Deployment,将Application co ...

python写的百度图片爬虫

python写的百度图片爬虫的更多相关文章

随机推荐

热门专题