爬虫实战--基于requests 和 Beautiful的7160美图网爬取图片

import requests

import os

from bs4 import BeautifulSoup

import re

# 初始地址

all_url = 'http://www.7160.com/xiaohua/'

#保存路径

path = 'H:/school_girl/'

# 请求头

header = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2107.204 Safari/537.36'

}

#################################开始请求（多列表）#################################

html = requests.get(all_url,headers = header)

start_html = html.text.encode('iso-8859-1').decode('gbk')  # 将gb2312转为UTF-8格式

#################################开始解析#################################

soup = BeautifulSoup(start_html,'lxml')

#查找最大页码

page = 255

# 同一路径

same_url = 'http://www.7160.com/xiaohua/'

for n in range(1,int(page)+1):

    ul = same_url + 'list_6_' + str(n) + '.html'

    ####################开始请求（单列表多元素）###############

    html = requests.get(ul,headers = header)

    start_html = html.text.encode('iso-8859-1').decode('gbk')

    ########################开始解析##########################

    soup = BeautifulSoup(start_html,'lxml')

    all_a = soup.find('div',class_='news_bom-left').find_all('a',target = '_blank')

    for a in all_a:

        title = a.get_text()

        if title != '':

            ########################创建目录##########################

            #win不能创建带？的目录

            if (os.path.exists(path + title.strip().replace('?', ''))):

                # print('目录已存在')

                flag = 1

            else:

                os.makedirs(path + title.strip().replace('?', ''))

                flag = 0

            os.chdir(path + title.strip().replace('?', ''))

            ######################### END ###########################

            ###################开始请求（单元素）###############

            print('准备爬取:' + title)

            hrefs = a['href']

            in_url = 'http://www.7160.com'

            href = in_url + hrefs

            htmls = requests.get(href,headers = header)

            html = htmls.text.encode('iso-8859-1').decode('gbk')

            #######################开始解析######################

            mess = BeautifulSoup(html,'lxml')

            titles = mess.find('h1').text

            pic_max = mess.find('div',class_ = 'itempage').find_all('a')[-2].text # 最大页数

            if (flag == 1 and len(os.listdir(path + title.strip().replace('?', ''))) >= int(pic_max)):

                print('已经保存完毕，跳过')

                continue

            for num in range(1,int(pic_max)+1):

                href = a['href']

                hrefs = re.findall(r'.{14}',href)

                href = "".join(hrefs)

                if num == 1:

                    html = in_url + href + '.html'

                else:

                    html = in_url + href + '_' + str(num) + ".html"

                ###################开始请求（单元素里的子元素）###############

                htmls = requests.get(html,headers = header)

                html = htmls.text.encode('iso-8859-1').decode('gbk')

                #######################开始解析######################

                mess = BeautifulSoup(html,'lxml')

                pic_url = mess.find('img',alt = titles)

                print(pic_url['src'])

                #########################开始下载#####################

                html = requests.get(pic_url['src'],headers = header)

                filename = pic_url['src'].split(r'/')[-1]

                f = open(filename,'wb')

                f.write(html.content)

                f.close()

            print('完成')

    print('第',n,'页完成')

打印后的结果为：

准备爬取:
阳光下校花美女迷人桃花眼嘴
http://img.7160.com/uploads/allimg/180913/13-1P913102541.jpg
http://img.7160.com/uploads/allimg/180913/13-1P913102541-50.jpg
http://img.7160.com/uploads/allimg/180913/13-1P913102541-51.jpg
http://img.7160.com/uploads/allimg/180913/13-1P913102542.jpg
http://img.7160.com/uploads/allimg/180913/13-1P913102542-50.jpg
http://img.7160.com/uploads/allimg/180913/13-1P913102542-51.jpg
http://img.7160.com/uploads/allimg/180913/13-1P913102542-52.jpg
http://img.7160.com/uploads/allimg/180913/13-1P913102542-53.jpg
http://img.7160.com/uploads/allimg/180913/13-1P913102542-54.jpg
http://img.7160.com/uploads/allimg/180913/13-1P913102543.jpg
http://img.7160.com/uploads/allimg/180913/13-1P913102543-50.jpg
完成
准备爬取:
黑长直发美女学生日系风制服
http://img.7160.com/uploads/allimg/180912/13-1P912102159.jpg
http://img.7160.com/uploads/allimg/180912/13-1P912102159-50.jpg
http://img.7160.com/uploads/allimg/180912/13-1P912102159-51.jpg
http://img.7160.com/uploads/allimg/180912/13-1P912102159-52.jpg
http://img.7160.com/uploads/allimg/180912/13-1P912102200.jpg

爬虫实战--基于requests 和 Beautiful的7160美图网爬取图片的更多相关文章

爬虫实战--基于requests和beautifulsoup的妹子网图片爬取（福利哦！）
#coding=utf-8 import requests from bs4 import BeautifulSoup import os all_url = 'http://www.mzitu.co ...
[原创] Python3.6+request+beautiful 半次元Top100 爬虫实战，将小姐姐的cos美图获得
1 技术栈 Python3.6 Python的版本 request 得到网页html.jpg等资源的lib beautifulsoup 解析html的利器 html5lib 指定beautifulso ...
基于requests模块的cookie,session和线程池爬取
目录基于requests模块的cookie,session和线程池爬取基于requests模块的cookie操作基于requests模块的代理操作基于multiprocessing.dummy ...
Python爬虫实战之Requests+正则表达式爬取猫眼电影Top100
import requests from requests.exceptions import RequestException import re import json # from multip ...
vue基于video.js实现视频播放暂停---切图网
切图网是最早致力于PSD2HTML切图等web前端外包服务的,随着前端技术的更新迭代,现在也已经全面投入了vue的浪潮了,下面是vue中实现视频播放的方法. vue.js中引入video视频播放器 m ...
爬虫开发3.requests模块
requests模块 - 基于如下5点展开requests模块的学习什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求.功能 ...
【Python爬虫实战】微信爬虫
所谓微信爬虫,即自动获取微信的相关文章信息的一种爬虫.微信对我们的限制是很多的,所以我们需要采取一些手段解决这些限制主要包括伪装浏览器.使用代理IP等方式http://weixin.sogou.com ...
python动态网站爬虫实战(requests+xpath+demjson+redis)
目录前言一.主要思路 1.观察网站 2.编写爬虫代码二.爬虫实战 1.登陆获取cookie 2.请求资源列表页面,定位获得左侧目录每一章的跳转url(难点) 3.请求每个跳转url,定位右侧下载 ...
python 网络爬虫全流程教学，从入门到实战（requests+bs4+存储文件）
python 网络爬虫全流程教学,从入门到实战(requests+bs4+存储文件) requests是一个Python第三方库,用于向URL地址发起请求 bs4 全名 BeautifulSoup4, ...

随机推荐

成功解决JSP和Servlet的中文乱码问题
表单提交时出现乱码: 在进行表单提交的时候,经常提交一些中文,自然就避免不了出现中文乱码的情况,对于表单来说有两种提交方式:get和post提交方式.所以请求的时候便有get请求和post请求.以前我 ...
laravel5.6 调用第三方类库
大概流程: 1. 新建一个目录方类库 2. 配置composer配置文件 3. 在项目中使用终端运行composer dumpautoload 4. 使用时方法调用可以new对象后->方法名 ...
PHP对象类型转换
其他数据类型转换为对象类型其他数据类型转换为对象类型,得到的结果是:内置标准类(stdclass)的一个对象! 语法形式为: $obj1 = (object) 其他类型数据: 数组转换为对象:数 ...
C# 为VB6.0程序模拟串口数据
为VB6.0编写程序模拟数据测试使用. 一.VB6.0 控件MSComm,来发送接收串口数据 CommPort 属性设置并返回通讯端口号,虚拟端口为COM2. Settings 属性设置并返回端口的波 ...
【.Net】C# 根据绝对路径获取带后缀文件名、后缀名、文件名、不带文件名的文件路径
1.c#根据绝对路径获取带后缀文件名.后缀名.文件名. 1 string str =" F:\test\Default.aspx"; 2 string filename = ...
AngularJS中$apply
$apply是$scope下的特性,传播model的变化.下面的例子两秒之后控制台会显示出已经更新的model, 然而, view 并没有更新.$digest循环不会只运行一次.在当前的一次循环结束后 ...
Javascript面向对象三大特性（封装性、继承性、多态性）详解及创建对象的各种方法
Javascript基于对象的三大特征和C++,Java面向对象的三大特征一样,都是封装(encapsulation).继承(inheritance )和多态(polymorphism ).只不过实现 ...
Java SSM 整合
从2012年的“用户标签”到2014年的“用户画像”,从2015年的“大数据”到2017年的“人工智能”,大数据正在从神坛走向现实.“标签”到“画像”,代表着数据在数量和维度上,逐渐在丰富:“大数据” ...
【BZOJ4129】Haruna’s Breakfast（树上莫队）
[BZOJ4129]Haruna's Breakfast(树上莫队) 题面 BZOJ Description Haruna每天都会给提督做早餐! 这天她发现早饭的食材被调皮的 Shimakaze放到了 ...
css美化Div边框的样式实例
很多时候如果不是用了很多样式,很难把边框修饰得好看,看了一篇博文,觉得真的挺漂亮,也挺好看. 转载的博文地址将这段美化的css代码 border:1px solid #96c2f1;backgrou ...

爬虫实战--基于requests 和 Beautiful的7160美图网爬取图片

爬虫实战--基于requests 和 Beautiful的7160美图网爬取图片的更多相关文章

随机推荐

热门专题