Python 爬虫校花网

爬虫：是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

福利来了校花网，首先说为什么要爬这个网站呢，第一这个网站简单爬起来容易，不会受到打击，第二呢你懂得...。

1.第一步，需要下载爬虫所用

Requests模块，当安装Python的时候会自动安装上pip管理包工具，要是没有的话自己下载一下，地址。

1.1 第二步打开的cmd 运行 pip install requests 命令，然后回车，会自动下载。

2.打开你的Pycharm，引入你的requests包，requests模块是可以模拟发送请求的一个模块，也有其他模块比如：urllib、httplib、Queue...等等。

另外 re 是正则模块，还有 os 对文件操作模块都引用上。

3.然后定义一个方法SaveImage()，用户保存获取图片的方法。

3.1 由于不可能保存一张图片，所以图片url和name都写成参数形式。

3.2 with open as 关键字是对操作文件的一种封装，包括异常处理和释放资源都有。

3.3 write() 是写入二进制，所以 response.content 返回的是二进制。

4. 上面说到不可能只保存一直图片，所以要定义一个方法GetImage()获取当前页面所有图片的url和name。

4.1 首页先Get请求校花网其中一个导航栏中的url。

4.2 然后设置编码格式，可以右键在源代码中的 charset 查看，这里是 "gbk" 编码格式。

4.3 然后使用正则的 findall()方法，参数是一个正则和一个网页源代码，用 page.text可以获取到，返回一个字典类型。

4.5 然后循环打印 url和name，并调用上面写的保存图片的SaveImage()存起来。

5.到目前为止可以获取到整页的图片和名字了，那么有许多页怎么办呢,很简单....

5.1 为什么要把第一页的url拿出来呢，因为是这个网站的第一页和其他页的url规则不一样，所以单独处理一下。

5.2 然后for循环，循环 range(),这里 1,13 代表从1开始，到13前的一个数结束。

5.3 在循环的过程中调用获取GetImage()方法.

5.4 最后一步，每次循环的时候使用 %s 占位符改变翻页的url。然后Ctrl+Shift+F10 完成！

6. 然后把这些零碎的代码串起来就可以了。

 import requests,re,os

 #文件夹名称

 FileName= 'download'

 #保存图片

 def SaveImage(image,name="temp"):

     #图片存放路径

      fpath = os.path.join(FileName, name+'.jpg')

      response=requests.get("http://www.xiaohuar.com/d/file/"+image).content

      #写入图片

      with open(fpath+'.jpg', 'wb+') as f:

          f.write(response)

 #获取当前页图片Url集合

 def GetImage(fanyeUr):

     #请求页面

     page =requests.get(fanyeUr)

     #设置编码

     page.encoding='gbk'

     #正则获取图片集合

     imglist = re.findall('alt="(.*?)" src="/d/file/(.*?\.jpg)"', page.text)

     #循环保存图片

     for name,url in imglist:

         print(url,name)

         SaveImage(url,name)

 #判断文件夹是否存在

 if not os.path.exists(os.path.join(os.getcwd(), FileName)):

     #新建文件夹

     os.mkdir(os.path.join(os.getcwd(),FileName))

 #请求第一页

 fanyeUr='http://www.xiaohuar.com/p/suyan/index.html'

 #循环翻页

 for faye in range(1,13):

     #获取翻页Url

     GetImage(fanyeUr)

     fanyeUr='http://www.xiaohuar.com/p/suyan/index_%s.html' % faye

7.查看效果完成，爬的照片就不贴了，好好学习，天天向上

Python 爬虫校花网的更多相关文章

Python之爬虫-校花网
Python之爬虫-校花网 #!/usr/bin/env python # -*- coding:utf-8 -*- import re import requests # 拿到校花网主页的内容 re ...
用python爬校花网
import requests import re import hashlib,time def get_index(url): response=requests.get(url) if resp ...
Python 爬虫爬校花网！！
爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本 1.福利来了校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易不会受到打击,第二呢你懂得... 1.第一步,需要下载 ...
python爬虫基础应用----爬取校花网视频
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
爬虫（猫眼电影+校花网+github+今日头条+拉钩）
Requests+正则表达式爬取猫眼TOP100榜电影信息 MARK:将信息写入文件解决乱码方法,开启进程池秒爬. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 ...
python实战项目 — 爬取校花网图片
重点: 1. 指定路径创建文件夹,判断是否存在 2. 保存图片文件 # 获得校花网的地址,图片的链接 import re import requests import time import os ...
Python-爬取校花网视频(单线程和多线程版本)
一.参考文章 python爬虫爬取校花网视频,单线程爬取爬虫----爬取校花网视频,包含多线程版本上述两篇文章都是对校花网视频的爬取,由于时间相隔很久了,校花网上的一些视频已经不存在了,因此上述文 ...
【收藏】收集的各种Python爬虫、暗网爬虫、豆瓣爬虫、抖音爬虫 Github1万+星
收集的各种Python爬虫.暗网爬虫.豆瓣爬虫 Github 1万+星磁力搜索网站2020/01/07更新 https://www.cnblogs.com/cilisousuo/p/1209954 ...
day1之校花网小试牛刀
一利用生成器来完成爬去校花网视频 import requests import re import os import hashlib import time DOWLOAD_PATH=r'D:\D ...

随机推荐

React native 之 Promise
关键词:Promise Promise.all Promise是什么?=> https://www.runoob.com/w3cnote/es6-promise.html Promise.all ...
Activiti7整合SpringBoot(十二)
1 SpringBoot 整合 Activiti7 的配置为了能够实现 SpringBoot 与 Activiti7 整合开发,首先我们要引入相关的依赖支持.所以,我们在工程的 pom.xml 文件 ...
Android and HTML5 开发手机应用(转载）
作为一个WEB开发者,HTML5让我兴奋,因为它可以将桌面应用程序功能带入浏览器中.但在国内,看着到处横行的IE8版本以下的浏览器,觉得到能大规模使用HTML5技术的那天,还遥遥无期.但面对iOS及A ...
20180829-Java多线程编程
Java 多线程编程 Java给多线程编程提供了内置的支持.一个多线程程序包含两个或多个能并发运行的部分. 程序的每一部分都称作一个线程,并且每个线程定义了一个独立的执行路径. 多线程是多任务的一种特 ...
$FFT/NTT/FWT$题单&简要题解
打算写一个多项式总结. 虽然自己菜得太真实了. 好像四级标题太小了,下次写博客的时候再考虑一下. 模板 $FFT$模板 #include <iostream> #include < ...
170815-关于Session知识点
Cookie:实际上就是一个头. 服务器会创建Cookie,并且将Cookie以一个响应头的形式发送给浏览器浏览器收到Cookie以后,会保存 ...
原生JS获取元素宽高实践详解
开篇的话任何不是亲身实践中求得的知识,都不是属于你的.任何求得的知识不去时常温习运用,也不是属于你的. 记录由来在做个上拉广告功能中遇到了一个"理所当然"觉得对的用法,慢慢才排 ...
数据库-SqlServer 行转列，列转行
两篇行转列,列转行的实例文章: 第1篇:https://www.cnblogs.com/cpcpc/archive/2013/04/08/3009021.html 第2篇:https://mp.wei ...
leetcode 374猜数字大小
// Forward declaration of guess API. // @param num, your guess // @return -1 if my number is lower, ...
阶段1 语言基础+高级_1-3-Java语言高级_04-集合_08 Map集合_7_HashMap存储自定义类型键值
自定义类型做key值.必须要重写hashCode和equals方法创建pserson类有name个age两个成员变量.重写toString方法 key有重复,会被新的value值替换掉. key值 ...

Python 爬虫 校花网

Python 爬虫 校花网的更多相关文章

随机推荐

热门专题

Python 爬虫校花网

Python 爬虫校花网的更多相关文章