Python 爬虫爬校花网！！

爬虫：是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

福利来了校花网，首先说为什么要爬这个网站呢，第一这个网站简单爬起来容易，不会受到打击，第二呢你懂得...。

1.第一步，需要下载爬虫所用

Requests模块，当安装Python的时候会自动安装上pip管理包工具，要是没有的话自己下载一下，地址。

1.1 第二步打开的cmd 运行 pip install requests 命令，然后回车，会自动下载。

2.打开你的Pycharm，引入你的requests包，requests模块是可以模拟发送请求的一个模块，也有其他模块比如：urllib、httplib、Queue...等等。

另外 re 是正则模块，还有 os 对文件操作模块都引用上。

3.然后定义一个方法SaveImage()，用户保存获取图片的方法。

3.1 由于不可能保存一张图片，所以图片url和name都写成参数形式。

3.2 with open as 关键字是对操作文件的一种封装，包括异常处理和释放资源都有。

3.3 write() 是写入二进制，所以 response.content 返回的是二进制。

4. 上面说到不可能只保存一直图片，所以要定义一个方法GetImage()获取当前页面所有图片的url和name。

4.1 首页先Get请求校花网其中一个导航栏中的url。

4.2 然后设置编码格式，可以右键在源代码中的 charset 查看，这里是 "gbk" 编码格式。

4.3 然后使用正则的 findall()方法，参数是一个正则和一个网页源代码，用 page.text可以获取到，返回一个字典类型。

4.5 然后循环打印 url和name，并调用上面写的保存图片的SaveImage()存起来。

5.到目前为止可以获取到整页的图片和名字了，那么有许多页怎么办呢,很简单....

5.1 为什么要把第一页的url拿出来呢，因为是这个网站的第一页和其他页的url规则不一样，所以单独处理一下。

5.2 然后for循环，循环 range(),这里 1,13 代表从1开始，到13前的一个数结束。

5.3 在循环的过程中调用获取GetImage()方法.

5.4 最后一步，每次循环的时候使用 %s 占位符改变翻页的url。然后Ctrl+Shift+F10 完成！

6. 然后把这些零碎的代码串起来就可以了。

 import requests,re,os

 #文件夹名称

 FileName= 'download'

 #保存图片

 def SaveImage(image,name="temp"):

     #图片存放路径

      fpath = os.path.join(FileName, name+'.jpg')

      response=requests.get("http://www.xiaohuar.com/d/file/"+image).content

      #写入图片

      with open(fpath+'.jpg', 'wb+') as f:

          f.write(response)

 #获取当前页图片Url集合

 def GetImage(fanyeUr):

     #请求页面

     page =requests.get(fanyeUr)

     #设置编码

     page.encoding='gbk'

     #正则获取图片集合

     imglist = re.findall('alt="(.*?)" src="/d/file/(.*?\.jpg)"', page.text)

     #循环保存图片

     for name,url in imglist:

         print(url,name)

         SaveImage(url,name)

 #判断文件夹是否存在

 if not os.path.exists(os.path.join(os.getcwd(), FileName)):

     #新建文件夹

     os.mkdir(os.path.join(os.getcwd(),FileName))

 #请求第一页

 fanyeUr='http://www.xiaohuar.com/p/suyan/index.html'

 #循环翻页

 for faye in range(1,13):

     #获取翻页Url

     GetImage(fanyeUr)

     fanyeUr='http://www.xiaohuar.com/p/suyan/index_%s.html' % faye

7.查看效果完成，爬的照片就不贴了，好好学习，天天向上

Python 爬虫爬校花网！！的更多相关文章

Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
Scrapy爬虫实例——校花网
学习爬虫有一段时间了,今天使用Scrapy框架将校花网的图片爬取到本地.Scrapy爬虫框架相对于使用requests库进行网页的爬取,拥有更高的性能. Scrapy官方定义:Scrapy是用于抓取网 ...
python爬虫:爬取慕课网视频
前段时间安装了一个慕课网app,发现不用注册就可以在线看其中的视频,就有了想爬取其中的视频,用来在电脑上学习.决定花两天时间用学了一段时间的python做一做.(我的新书<Python爬虫开发与 ...
爬虫下载校花网美女信息-lxml
# coding=utf-8 # !/usr/bin/env python ''' author: dangxusheng desc : 下载校花网上的个人信息:名字-学校-图片地址-点赞数 date ...
用python爬校花网
import requests import re import hashlib,time def get_index(url): response=requests.get(url) if resp ...
Python爬虫爬取百合网的女人们和男人们
学Python也有段时间了,目前学到了Python的类.个人感觉Python的类不应称之为类,而应称之为数据类型,只是数据类型而已!只是数据类型而已!只是数据类型而已!重要的事情说三篇. 据书上说一个 ...
python爬虫爬取赶集网数据
一.创建项目 scrapy startproject putu 二.创建spider文件 scrapy genspider patubole patubole.com 三.利用chrome浏览器 ...
python爬虫基础应用----爬取校花网视频
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
Python之爬虫-校花网
Python之爬虫-校花网 #!/usr/bin/env python # -*- coding:utf-8 -*- import re import requests # 拿到校花网主页的内容 re ...

随机推荐

Golang源码探索(二) 协程的实现原理
Golang最大的特色可以说是协程(goroutine)了, 协程让本来很复杂的异步编程变得简单, 让程序员不再需要面对回调地狱, 虽然现在引入了协程的语言越来越多, 但go中的协程仍然是实现的是最彻 ...
一个简单的基于BIO的RPC框架
github地址:https://github.com/Luyu05/BioRpcExample PART1:先来整体看下项目的构成其中bio-rpc-core就是所谓的rpc框架 bio-rpc- ...
Linux系列教程（十九）——Linux文件系统管理之手工分区
上篇博客我们首先介绍了硬盘为什么要分区,以及Linux系统的几种分区类型,然后介绍了Linux系统几个常用的文件系统命令,最后讲解了挂载命令,并通过实例演示了如何挂载光盘和U盘. 本篇博客我们将介绍l ...
unity下跨平台excel读写
这是以前写的跨windows和ios读写excel的工具,因为原来导表工具引用的第三方读写excel的dll只能在windos下使用,造成要在mac机器上跑PC端或者打包的时候,每次都要先在windo ...
struts2+spring3+hibernate3+mysql简单登录实现
1.导入相关的jar包 2.建立数据库 1 create table account( 2 id int(10), 3 user varchar(50), 4 paw varchar(50) 5 ); ...
Celery 源码解析四：定时任务的实现
在系列中的第二篇我们已经看过了 Celery 中的执行引擎是如何执行任务的,并且在第三篇中也介绍了任务的对象,但是,目前我们看到的都是被动的任务执行,也就是说目前执行的任务都是第三方调用发送过来的.可 ...
在写一点关于MySQL的知识，感觉自己mmd
DBMS(Database Management System)数据库管理系统包括有DDL(数据定义语言)和DML(数据操纵语言)以及DCL(数据库控制语言) 数据库设计方法: 1.需求分析阶段 ...
[转载] Java实现生产者消费者问题
转载自http://www.cnblogs.com/happyPawpaw/archive/2013/01/18/2865957.html 引言生产者和消费者问题是线程模型中的经典问题:生产者和消费 ...
深入理解ES6之——迭代器与生成器
迭代器迭代器是被设计专用于迭代的对象,带有特定接口.所有的迭代器对象都有next方法,会返回一个结果对象.该结果对象有两个属性:对应下一个值的value,以及一个布尔类型的done,其值为true时 ...
Oracle漏洞分析（tns_auth_sesskey)
p216 Oracle漏洞分析: 开启oracle: C:\oracle\product\\db_1\BIN\sqlplus.exe /nolog conn sys/mima1234 as sysdb ...

Python 爬虫 爬校花网！！

Python 爬虫 爬校花网！！的更多相关文章

随机推荐

热门专题

Python 爬虫爬校花网！！

Python 爬虫爬校花网！！的更多相关文章