Python——爬虫学习2

BeautifulSoup插件的使用

这个插件需要先使用pip安装（在上一篇中不再赘言），然后再程序中申明引用

from bs4 import BeautifulSoup

html=self.requests(url)#调用requests函数把套图地址传入会返回一个response

all_a=BeautifulSoup(html.text,'lxml').find('div',class_='all').find('li').find_all('a')

这里find方法只会查找第一个匹配的元素，所以返回的是一个对象，find_all方法会查找所有匹配的元素，所以返回的是list

在使用网页文本的时候用text，在下载多媒体文件的时候用content。

正式编程

这里对程序进行了一些封装，方便函数的复用

ps：不得不感叹，python的io操作真的是很好用，简单方便，敲几下键盘就搞定，比起C#的各种参数真是太简洁！！！

import requests

from bs4 import BeautifulSoup

import os

class mzitu():

    def __init__(self):

        self.headers={'User-Agent':'Mozilla/5.0(Windows NT 6.2;WOW64)AppleWebKit/535.24(KHTML,like Gecko)Chrome/19.0.1055.1 Safari/535.24'}

        #self.route="D:\GITHUB\学习Python\爬虫基础教程mzitu\mzitu"

    def all_url(self,url):

        html=self.requests(url)#调用requests函数把套图地址传入会返回一个response

        all_a=BeautifulSoup(html.text,'lxml').find('div',class_='all').find('li').find_all('a')

        for a in all_a:

            title=a.get_text()

            print(u'开始保存：',title)#加一点提示，不然太枯燥了

            path=str(title).replace("?",'_')

            path = str(title).replace("?", '_') ##我注意到有个标题带有 ？  这个符号Windows系统是不能创建文件夹的所以要替换掉

            if self.mkdir(path):#调用mkdir函数创建文件夹

                href=a['href']

                self.html(href)#调用html函数把href参数传递过去

        print(u'共找到资源：',len(all_a),u'组')

    def html(self,href): ##这个函数是处理套图地址获得图片的页面地址

        html=self.requests(href)#调用requests函数

        self.headers['referer']=href

        max_span=BeautifulSoup(html.text,'lxml').find('div',class_='pagenavi').find_all('span')[-2].get_text()

        for page in range(1,int(max_span)+1):

            page_url=href+'/'+str(page)

            self.img(page_url)#调用img函数

    def img(self,page_url): ##这个函数处理图片页面地址获得图片的实际地址

        img_html=self.requests(page_url)

        img_url=BeautifulSoup(img_html.text,'lxml').find('div',class_='main-image').find('img')['src']

        self.save(img_url)#调用save函数

    def save(self,img_url): ##这个函数保存图片

        name=img_url[-9:-4]

        img=self.requests(img_url)

        f=open(name+'.jpg','ab')

        f.write(img.content)

        f.close()

    def mkdir(self,path): ##这个函数创建文件夹

        path=path.strip()

        isExists=os.path.exists(os.path.join("D:\GITHUB\学习Python\爬虫基础教程mzitu\mzitu",path))#创建一个存放套图的文件夹

        if not isExists:

            print(u'创建了',path,u'文件夹！')

            os.makedirs(os.path.join("D:\GITHUB\学习Python\爬虫基础教程mzitu\mzitu",path))

            os.chdir(os.path.join("D:\GITHUB\学习Python\爬虫基础教程mzitu\mzitu",path))#切换到目录

            return True

        else:

            print(u'名字叫做',path,u'的文件夹已经存在了！')

            return False

    def requests(self,url): ##这个函数获取网页的response 然后返回

        content=requests.get(url,headers=self.headers)

        return content

Mzitu=mzitu()#实例化

Mzitu.all_url('http://www.mzitu.com/all')##给函数all_url传入参数 当作启动爬虫（就是入口）

运行脚本，下载后到文件夹去看看，效果很惊艳！

Python——爬虫学习2的更多相关文章

python爬虫学习(1) —— 从urllib说起
0. 前言如果你从来没有接触过爬虫,刚开始的时候可能会有些许吃力因为我不会从头到尾把所有知识点都说一遍,很多文章主要是记录我自己写的一些爬虫所以建议先学习一下cuiqingcai大神的 Pyth ...
python爬虫学习 —— 总目录
开篇作为一个C党,接触python之后学习了爬虫. 和AC算法题的快感类似,从网络上爬取各种数据也很有意思. 准备写一系列文章,整理一下学习历程,也给后来者提供一点便利. 我是目录听说你叫爬虫 - ...
Python爬虫学习：三、爬虫的基本操作流程
本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:三.爬虫的基本操作与流程一般我们使用Python爬虫都是希望实现一套完整的功能,如下: 1.爬虫目标数据.信息: 2.将 ...
Python爬虫学习：四、headers和data的获取
之前在学习爬虫时,偶尔会遇到一些问题是有些网站需要登录后才能爬取内容,有的网站会识别是否是由浏览器发出的请求. 一.headers的获取就以博客园的首页为例:http://www.cnblogs.c ...
Python爬虫学习：二、爬虫的初步尝试
我使用的编辑器是IDLE,版本为Python2.7.11,Windows平台. 本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:二.爬虫的初步尝试 1.尝试抓取指定网页 ...
《Python爬虫学习系列教程》学习笔记
http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己 ...
python爬虫学习视频资料免费送，用起来非常666
当我们浏览网页的时候,经常会看到像下面这些好看的图片,你是否想把这些图片保存下载下来. 我们最常规的做法就是通过鼠标右键,选择另存为.但有些图片点击鼠标右键的时候并没有另存为选项,或者你可以通过截图工 ...
python爬虫学习笔记（一）——环境配置（windows系统）
在进行python爬虫学习前,需要进行如下准备工作: python3+pip官方配置 1.Anaconda(推荐,包括python和相关库) [推荐地址:清华镜像] https://mirrors ...
[转]《Python爬虫学习系列教程》
<Python爬虫学习系列教程>学习笔记 http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多. ...
python爬虫学习01--电子书爬取
python爬虫学习01--电子书爬取 1.获取网页信息 import requests #导入requests库 ''' 获取网页信息 ''' if __name__ == '__main__': ...

随机推荐

composer 学习与推荐资料
今天看了一下composer,前几天开始用包依赖,以前一直都是自己手动配.今天用了composer,要学习的话可以按照以下链接学习: 1 官方文档: http://docs.phpcomposer.c ...
1270: Wooden Sticks [贪心]
点击打开链接 1270: Wooden Sticks [贪心] 时间限制: 1 Sec 内存限制: 128 MB 提交: 31 解决: 11 统计题目描述 Lialosiu要制作木棍,给n根作为原料 ...
BZOJ 1922--大陆争霸(最短路)
1922: [Sdoi2010]大陆争霸 Time Limit: 10 Sec Memory Limit: 64 MBSubmit: 2113 Solved: 947[Submit][Status ...
干货 | 精选《SQL注入、渗透、反病毒》学习总结集锦给你们~
学到手的都是本事,如果觉得对你有帮助也欢迎分享给身边的基友们吧! 分享干货,手留余香哦~ 本次“开学季拜师活动”的徒弟们在师父的精心指导下,在短短5天内得到了迅速地成长,以前或当时遇到的问题都能够柳暗 ...
django入门-自定义管理界面-part7
尊重作者的劳动,转载请注明作者及原文地址 http://www.cnblogs.com/txwsqk/p/6522854.html 完全翻译自官方文档 https://docs.djangoproje ...
Java中将图片保存到数据库中
在实际的开发中,我们可能需要将图片.影音等文件直接保存到数据库中,然后通过编程方式将数据读出进行使用.例如将读出的图片数据显示出来,将读出的电影文件播放出来. 二进制数据直接保存到文件和从文件中读出非 ...
Oracle数据库PL/SQL那点事情---修改过电脑的用户名
在安装Oracle数据库的PL/SQL工具时候,电脑名称是重装系统后自动生成的用户名名称,作为程序员,有很强的强迫症,就想利用自己的英文名称作为自己电脑的名称,所以就修改了电脑的名称:结果PL/SQL ...
DataList用法总结
设计模版: 页眉<HeaderTemplate> </HeaderTemplate> 页脚<FooterTemplate> </FooterTemplat ...
题解 p2017 [USACO09DEC]晕牛Dizzy Cows
前言:P大终于又更新了正文转送门由于当时我这个ZZ不知怎么了,这份题解排版可能有些尴尬,建议大家读完题后,看我主程序前的代码的注释,然后看最下面的图片,然后看第一张图片,对不起,望多谅解以样例 ...
通过MSI解压缩Cab文件
迁移自我的Github 如果只是想做类似解压缩的操作,那么可以使用如下命令行 C:\Windows\System32\expand.exe <cab file path> -F:* < ...

Python——爬虫学习2

Python——爬虫学习2的更多相关文章

随机推荐

热门专题