千图网爬图片（BeautifulSoup）

import requests

from bs4 import BeautifulSoup

import os  #导入os模块

class TuKuSpider():

    """docstring for TuKuSpider"""

    def __init__(self):

        self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}

        self.url='http://588ku.com/tuku/jiepai.html'

        self.folder_path='E:\TuKuImg'

    def get_img_url(self):

        print('开始请求页面')

        init_response = self.request(self.url)

        all_img = BeautifulSoup(init_response.text,'lxml').find_all('img',class_='lazy')

        print('开始创建文件夹')

        self.mkdir(self.folder_path)  #创建文件夹

        print('开始切换文件夹')

        os.chdir(self.folder_path)   #切换路径至上面创建的文件夹

        for each in all_img:

            img_url = each.get('data-original')

            img_name = each.get('alt')

            if img_name == None:

                img_name = 'NoName'

            if img_url[-3:]=='png':

                img_url_final = 'http:'+img_url

                img_response = self.request(img_url_final)

                self.save_png(img_url_final,img_name)

            else:

                img_url = img_url[:img_url.index('.jpg')+4]

                img_url_final = 'http:'+img_url

                img_response = self.request(img_url_final)

                self.save_jpg(img_url_final,img_name)

    def request(self,url):

        r=requests.get(url,headers=self.headers)

        return r

    def save_jpg(self, url, name): ##保存图片

        print('开始请求图片地址，过程会有点长...')

        img = self.request(url)

        file_name = name + '.jpg'

        print('开始保存图片')

        f = open(file_name, 'ab')

        f.write(img.content)

        print(file_name,'图片保存成功！')

        f.close()

    def save_png(self, url, name): ##保存图片

        print('开始请求图片地址，过程会有点长...')

        img = self.request(url)

        file_name = name + '.png'

        print('开始保存图片')

        f = open(file_name, 'ab')

        f.write(img.content)

        print(file_name,'图片保存成功！')

        f.close()

    def mkdir(self, path):  ##这个函数创建文件夹

        path = path.strip()

        isExists = os.path.exists(path)

        if not isExists:

            print('创建名字叫做', path, '的文件夹')

            os.makedirs(path)

            print('创建成功！')

        else:

            print(path, '文件夹已经存在了，不再创建')

a = TuKuSpider()

a.get_img_url()

这个是针对千图网里面，搜索“街拍”弹出的结果进行一个爬虫编写。纯粹是为了练习，只爬15张图没什么必要写爬虫，手动都下载完了。

下面写一下这个爬虫的一些关键点：

一、图片URL所在位置：包含在属性class是lazy的IMG标签内，data-original内。

二、图片的URL需要进行文本处理，有些需要，有些不需要，要写个if判断。

三、图片保存的时候，在命名时要注意，后缀除了JPG以外，还有PNG，我的处理是加多了一个保存PNG的类。

踩的一些坑：

一、逻辑主体里面，有时在sublime text复制来复制去的时候，前面没有了空格，python会报错，只有前面是实线时，才是正确的，圆点是会报错的。

二、URL必须带“http://”不然requests无法识别，或者文本处理后的URL有误，都会报错：requests.exceptions.MissingSchema: Invalid URL

千图网爬图片（BeautifulSoup）的更多相关文章

【Python爬虫实战】图片爬虫-淘宝图片爬虫--千图网图片爬虫
所谓图片爬虫,就是从互联网中自动把对方服务器上的图片爬下来的爬虫程序.有些图片是直接在html文件里面,有些是隐藏在JS文件中,在html文件中只需要我们分析源码就能得到如果是隐藏在JS文件中,那么就 ...
python爬虫实战（二）--------千图网高清图
相关代码已经修改调试----2017-3-21 实现:千图网上高清图片的爬取程序运行20小时,爬取大约162000张图片,一共49G,存入百度云.链接:http://pan.baidu.com/s/ ...
爬虫实战--基于requests 和 Beautiful的7160美图网爬取图片
import requests import os from bs4 import BeautifulSoup import re # 初始地址 all_url = 'http://www.7160. ...
好看的UI设计网站 www.ui.cn 和插画网站 www.pixiv.net 千图网，界面很不错～
http://www.ui.cn/?t=share#project http://www.pixiv.net/ http://www.flaticon.com/ www.58pic.com 那张给人 ...
python爬取千库网
url:https://i588ku.com/beijing/0-0-default-0-8-0-0-0-0-1/ 有水印但是点进去就没了这里先来测试是否有反爬虫 import requests ...
爬取斗图网图片,使用xpath格式来匹配内容,对请求伪装成浏览器, Referer 防跨域请求
6.21自我总结一.爬取斗图网 1.摘要使用xpath匹配规则查找对应信息文件将请求伪装成浏览器 Referer 防跨域请求 2.爬取代码 #导入模块 import requests #爬取网址 ...
每天一个小程序—0013题（爬图片+正则表达式 or BeautifulSoup）
第 0013 题: 用 Python 写一个爬图片的程序,爬这个链接里的日本妹子图片 :-) 关于python3的urllib模块,可以看这篇博客:传送门首先是用urlopen打开网站并且获取网页 ...
python爬取斗图网中的 “最新套图”和“最新表情”
1.分析斗图网斗图网地址:http://www.doutula.com 网站的顶部有这两个部分: 先分析“最新套图” 发现地址栏变成了这个链接,我们在点击第二页可见,每一页的地址栏只有后面的pag ...
【Python还能干嘛】爬取微信好友头像完成马赛克拼图（千图成像）～
马赛克拼图何谓马赛克拼图(千图成像),简单来说就是将若干小图片平凑成为一张大图,如下图路飞一样,如果放大看你会发现里面都是一些海贼王里面的图片. Our Tragets 爬取所有微信好友的头像

随机推荐

关于eWebEditorAPI
1.获取HTML document.getElementById(Iframe的名称).contentWindow.getHTML();在线API http://www.ewebeditor.net/ ...
java的多线程安全，ReentrantLock与synchronized锁
前言多线程总的来说是一个很大的模块,所以虽然之前就想写但一直感觉有地方没有理解透,在经过了一段时间学习后,终于有点感觉了,在此写下随笔. 多线程安全问题##: 首先和大家讨论一下多线程为什么会不安全 ...
Redis缓存穿透、缓存雪崩
缓存穿透缓存穿透是指查询一个一定不存在的数据,由于缓存是不命中时被动写的,并且出于容错考虑,如果从存储层查不到数据则不写入缓存,这将导致这个不存在的数据每次请求都要到存储层去查询,失去了缓存的意义. ...
安装Xamarin.Android几个经典介面
昨晚Microsoft MVP的身份来申请Xamarin.Android,想不到今早就有邮件回复.花上些少时间订阅与注册: 望有时间能学习到一些新技术. 下面是Insus.NET下载并安装,留下几个经 ...
【大数据之数据仓库】HAWQ versus GreenPlum
谈到GreenPlum,肯定会有同事说HAWQ!是的,在本系列第一篇选型流水记里,也有提到.因为对HAWQ接触有限,没有深入具体了解,所以很多信息都是来自于博文,人云亦云,我把看过的资料简要整理,希望 ...
C# LINQ（3）
我们还是接着讨论一下group by 这一章节讨论group的本质:分组. 分组之后进行存储或者查询. 这个时候就要用一个新的关键字:into 这个之后就group就不作为结尾了. 必须重写另起sel ...
linux联网配置（更新）
重启网络配置:service network restart: 常见问题: linux 虚拟机ifconfig 显示eth1 文件ifcfg-eth0中device为eth0的问题为什么eth0 ...
python3好用的requests库
python3好用的requests库 requests是什么? requests是基于urllib编写的http库,支持python3,比urllib更好用,更简单.之前使用python写一些htt ...
Navicat 远程连接 MySQL
Navicat 远程连接 MySQL 相信大家都有在远程服务器上进行开发吧,其中 MySQL 的使用率应该也会挺高,如果使用 Navicat 等可视化工具来操作远程数据库不失为一种很好的选择,避免了在 ...
题解 P4140 【奇数国】
题目链接首先,按照题意,把前$60$个素数打出来$[2$ $-$ $281]$. 因为只有$60$个,再加上本宝宝极其懒得写线性筛于是每一个都$O(\sqrt{n})$暴力筛就好了. 代码如下: # ...

千图网爬图片（BeautifulSoup）

千图网爬图片（BeautifulSoup）的更多相关文章

随机推荐

热门专题