python实战项目 — 爬取校花网图片

重点：

1. 指定路径创建文件夹，判断是否存在

2. 保存图片文件

# 获得校花网的地址，图片的链接

import re

import requests

import time

import os

start = time.time()

num = 0                        # 为了记录爬的照片的次数

# 设置路径

path = 'D:\校花网'

# 判断目录下的文件夹是否已经创建，如果不存在

if not os.path.exists(path):

    # 则创建路径文件夹

    os.makedirs(path)

    print("完成创建文件夹！")

else:

    # 如果存在，则不需要创建

    pass

    print('路径已经存在，不需要创建！')

for url_name in range(5):

    response = requests.get(f'http://www.xiaohuar.com/list-1-{url_name}.html')

    # data就是我们要的校花F12里的东西啦，并用字符串格式保存

    data = response.text

    print("正在解析处理第{}页 ".format(url_name))

    # print(data)

    # 其中(.*?)表示我们所要获得的内容

    one_list = re.findall('" src="(.*?)" /></a>', data)

    # type str 这是为了让pycharm 更快的知道V是字符串格式方便导入内置方法

    for v in range(len(one_list)):

        # 这是为了让其中有些保护的图片变成正确的超链接格式

        if one_list[v].startswith('/d'):

            one_list[v] = f'http://www.xiaohuar.com/{one_list[v]}'

    for x in one_list:

        # 为了自动生成文件名,由于 one_list 网址有"/" 分割，最后的数据太长，所以名字也很长

        # x 是链接 随机一条如： http://www.xiaohuar.com//d/file/20190818/a73a16dfeaf75bd16d2e355642e1e16e.jpg

        name = x.split('/')[-1]

        # 再次分析链接，获得图片的信息

        dd = requests.get(x)

        # 图片信息装换成机械语言

        d_data = dd.content

        with open(f'D:\校花网\{name}','wb') as fw:

            fw.write(d_data)

            # 强行把缓冲区中的内容放到磁盘中

            fw.flush()

            num += 1

            print(f'已经爬取{num}张')

        # 防止段时间请求过多

        time.sleep(1)

print("全部完成，耗时%d s"%(start - time.time()))

python实战项目 — 爬取校花网图片的更多相关文章

Go语言实战-爬取校花网图片
一.目标网站分析爬取校花网http://www.xiaohuar.com/大学校花所有图片. 经过分析,所有图片分为四个页面,http://www.xiaohuar.com/list-1-0.htm ...
Scrapy爬虫框架之爬取校花网图片
Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设 ...
python实战项目 — 爬取妹子图网，保存图片到本地
重点: 1. 用def函数 2. 使用 os.path.dirname("路径保存") , 实现每组图片保存在独立的文件夹中方法1: import requests from l ...
python实战项目 — 爬取中国票房网年度电影信息并保存在csv
import pandas as pd import requests from bs4 import BeautifulSoup import time def spider(url, header ...
python爬虫基础应用----爬取校花网视频
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
scrapy爬取校花网男神图片保存到本地
爬虫四部曲,本人按自己的步骤来写,可能有很多漏洞,望各位大神指点指点 1.创建项目 scrapy startproject xiaohuawang scrapy.cfg: 项目的配置文件xiaohua ...
第六篇 - bs4爬取校花网
环境:python3 pycharm 模块:requests bs4 urlretrieve os time 第一步:获取网页源代码 import requests from bs4 imp ...
Python-爬取校花网视频(单线程和多线程版本)
一.参考文章 python爬虫爬取校花网视频,单线程爬取爬虫----爬取校花网视频,包含多线程版本上述两篇文章都是对校花网视频的爬取,由于时间相隔很久了,校花网上的一些视频已经不存在了,因此上述文 ...
Java基础-爬虫实战之爬去校花网网站内容
Java基础-爬虫实战之爬去校花网网站内容作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 爬虫这个实现点我压根就没有把它当做重点,也没打算做网络爬虫工程师,说起爬虫我更喜欢用Pyt ...

随机推荐

ssh配置基础
1:hostname r12:R1(config)#username xxx secret ppp3:R1(config)#ip domain-name baidu.com 设置域名4:R1(conf ...
Python 05 Geany的基本使用1
问题01:代码中包含中文编译时提示错误原文:https://blog.csdn.net/weixin_43345286/article/details/82951698 解决:文档 - 设置文件编码 ...
MySQL limit 分页查询优化（百万级优化）
1)简单的查询分页:分每页5条 limit [offset],[rows] ,10; 2)建立id索引:查询索引id ,) limit ; 3)使用 between and 语句分页效率快N倍 ; 4 ...
UDP网络程序设计
udp_server #include<stdio.h>#include<sys/socket.h>#include<string.h>#include<ne ...
shell脚本编程基础之自定义函数库
脚本编程知识点 ${#VAR_NAME}:引用变量中字符的长度 A="25 90 100 120": echo ${A#* }:针对A变量,#表示从左往右,*空格表示以空格为分隔符 ...
牛顿插值法（c++）
X Y 0.40 0.41075 0.55 0.57815 0.65 0.69675 0.80 0.88811 0.90 1.02652 1.05 1.25382 #include using nam ...
Web前端开发规范之文件存储位置规范
文件存放位置规范 1 文件夹说明 flash存放flash文件 p_w_picpaths存放图片文件 inc存放include文件 library存放DW库文件 media存放多媒体文件 scri ...
Python Selenium Webdriver常用方法总结
Python Selenium Webdriver常用方法总结常用方法函数加载浏览器驱动: webdriver.Firefox() 打开页面:get() 关闭浏览器:quit() 最大化窗口: m ...
flask 开发用户登录注册功能
flask 开发用户登录注册功能 flask开发过程议案需要四个模块:html页面模板.form表单.db数据库操作.app视图函数 1.主程序 # app.py # Auther: hhh5460 ...
JBoss服务器的安装和使用（关联到IDEA）
1. 下载安装jboss服务器 wildfly-16.0.0.Final.zip(更名为wildfly了,选择合适的版本) 2. 解压,配置环境变量. JBOSS_HOME=D:\Program Fi ...

python实战项目 — 爬取 校花网图片

python实战项目 — 爬取 校花网图片的更多相关文章

随机推荐

热门专题

python实战项目 — 爬取校花网图片

python实战项目 — 爬取校花网图片的更多相关文章