实战爬取某网站图片-Python
直接上代码
1 #!/usr/bin/python
2 # -*- coding: UTF-8 -*-
3 from bs4 import BeautifulSoup
4 import requests
5 import sys
6 import os
7
8 #获取图集id
9 try:
10 headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 Edg/92.0.902.55"}
11 html = requests.get('https://www.tujigu.com/', headers=headers)
12 html.encoding = 'utf-8-sig'
13 soup = BeautifulSoup(html.text,"html.parser").find_all('p',class_='biaoti')
14 dict = {}
15 for i in soup:
16 id_url = i.find('a')['href']
17 id = id_url[25:len(id_url)-1]
18 name_str = i.find('a').contents[0]
19 name = name_str.replace(" ", "")
20 dict.update({id:name})
21 except:
22 print("获取id和name失败")
23 sys.exit()
24
25
26 for id,name in dict.items():
27 #创建目录
28 path= r"C:\Users\ATRAY\Documents\Downloads\{}".format(name)
29 folder = os.path.exists(path)
30 if not folder:
31 os.makedirs(path)
32 else:
33 print ("创建目录失败")
34 #下载图片
35 num = 1
36 while True:
37 picture_url="https://tjg.gzhuibei.com/a/1/{}/{}.jpg".format(id,num)
38 picture=requests.get(picture_url,headers=headers)
39 if picture.status_code == 200:
40 with open(path + "\{}.jpg".format(num),"wb") as code:
41 code.write(picture.content)
42 num = num + 1
43 else:
44 print("以下载{}写真{}张".format(name,num - 1))
45 break
实战爬取某网站图片-Python的更多相关文章
- Java爬虫实践--爬取CSDN网站图片为例
		
实现的效果,自动在工程下创建Pictures文件夹,根据网站URL爬取图片,层层获取.在Pictures下以网站的层级URL命名文件夹,用来装该层URL下的图片.同时将文件名,路径,URL插入数据库, ...
 - python3 urllib爬取wallhalla网站图片
		
点我去我的github上看源码 简单使用静态方法爬取https://wallhalla.com/网站的图片 参考: https://blog.csdn.net/cquptcmj/article/det ...
 - 实战爬取拷背漫画-Python
		
 一.抓包获取链接 以爬取<前科者>为例 获取搜索链接 https://api.copymanga.com/api/v3/search/comic?limit=5&q=前科者 ...
 - scrapy入门实战-爬取代理网站
		
入门scrapy. 学习了有这几点 1.如何使用scrapy框架对网站进行爬虫: 2.如何对网页源代码使用xpath进行解析: 3.如何书写spider爬虫文件,对源代码进行解析: 4.学会使用scr ...
 - 使用nodejs+http(s)+events+cheerio+iconv-lite爬取2717网站图片数据到本地文件夹
		
源代码如下: //(node:9240) Warning: Setting the NODE_TLS_REJECT_UNAUTHORIZED environment variable to '0' ...
 - python3爬取动态网站图片
		
思路: 1.图片放在<image>XXX</image>标签中 2.利用fiddler抓包获取存放图片信息的js文件url 3.利用requests库获取html内容,然后获取 ...
 - Scrapy 爬取某网站图片
		
1. 创建一个 Scrapy 项目,在命令行或者 Pycharm 的 Terminal 中输入: scrapy startproject imagepix 自动生成了下列文件: 2. 在 imagep ...
 - python爬取某个网站的图片并保存到本地
		
python爬取某个网站的图片并保存到本地 #coding:utf- import urllib import re import sys reload(sys) sys.setdefaultenco ...
 - 初识python 之 爬虫:爬取某网站的壁纸图片
		
用到的主要知识点:requests.get 获取网页HTMLetree.HTML 使用lxml解析器解析网页xpath 使用xpath获取网页标签信息.图片地址request.urlretrieve ...
 
随机推荐
- React中使用react-file-viewer,实现预览office文件(pdf,word,xlsx等文件)前端实现
			
最近做一个项目要求在前端浏览器可以直接打开office文件(pdf,doc,xlsx等文件).pdf浏览器可以直接打开(可以直接用a标签href="文件地址"或者iframe标签s ...
 - css 设置body背景图片铺满
			
background-image: url(../../../assets/images/workflow/work.png); background-repeat: no-repeat; backg ...
 - Maven:Maven的project标签报错红线
			
作者在外网完成demo项目,把Maven的本地库打成压缩包放进内网时,Maven的project标签报错红线,且别的依赖不报错,同时Maven不引入本地仓库的依赖包. 解决方法: 进入自己的Maven ...
 - 前端集合传参,springmvc后端如何接收
			
废话不多说,上代码 后端接收对象: class ObjectA{ private String a; private String b; private List<ObjectB> lis ...
 - Java:Java的<<<移位运算符详解
			
1) 左移运算(<<) 左移就是把所有位向左移动几位 如: 12 << 2 意思就是12向左移动两位 12的二进制是: 0000 1100 通过这个图我们 ...
 - PHP经典算法之背包问题
			
问题:假设有一个背包的负重最多可达8公斤,而希望在背包中装入负重范围内可得之总价物品,假设是水果好了,水果的编号.单价与重量如下所示: 1 栗子 4KG $4500 2 苹果 5KG $5700 3 ...
 - linux学习之路第九天(任务调度)
			
crond 任务调度 概念 任务调度:是指的系统在某个时间执行的特定命令或程序. 比喻理解: 可以这样理解,比如生活中有闹钟,闹钟的作用是不是叫人起床的,那古时候没有闹钟,叫人起床的工作是不是要人去完 ...
 - 备战-Java 并发
			
备战-Java 并发 谁念西风独自凉,萧萧黄叶闭疏窗 简介:备战-Java 并发. 一.线程的使用 有三种使用线程的方法: 实现 Runnable 接口: 实现 Callable 接口: 继承 Thr ...
 - Spark编程基础_RDD编程
			
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的集合.RDD具有数据流模型的特 ...
 - [刘阳Java]_CSS鼠标悬停
			
小白在学习前端技术时候,一定会在刚开始的时候学习CSS2和CSS3的相关知识.这篇内容给大家介绍一个CSS鼠标悬停的效果.大家可以先看下面的效果图,然后我们在说一下实现的效果要求吧 上图效果非常简单和 ...