【Python】爬取网站图片

import requests

import bs4

import urllib.request

import urllib

import os

hdr = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',

       'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

       'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3',

       'Accept-Encoding': 'none',

       'Accept-Language': 'en-US,en;q=0.8',

       'Connection': 'keep-alive'}

DownPath = "C:/Users/Administrator/PycharmProjects/untitled/"

c = '.jpg'

for x in range(5, 100):

    newDownPath = DownPath + str(x) +"/"

    os.mkdir(newDownPath)

    site = "http://www.meizitu.com/a/" + str(x) + ".html"

    local_filename, headers = urllib.request.urlretrieve(site)

    html = open(local_filename)

    soup = bs4.BeautifulSoup(html,"html5lib")

    jpg = soup.find_all('img')

    PhotoNum = 0

    for photo in jpg:

        src = photo.get('src')

        print(src)

        PhotoNum += 1

        Name = (str(PhotoNum) + c)

        r = requests.get(src,headers = hdr)

        with open(newDownPath + Name, 'wb') as fd:

            for chunk in r.iter_content():

                fd.write(chunk)

        print(src)

【Python】爬取网站图片的更多相关文章

Python：爬取网站图片并保存至本地
Python:爬取网页图片并保存至本地 python3爬取网页中的图片到本地的过程如下: 1.爬取网页 2.获取图片地址 3.爬取图片内容并保存到本地实例:爬取百度贴吧首页图片. 代码如下: imp ...
python爬取网站数据保存使用的方法
这篇文章主要介绍了使用Python从网上爬取特定属性数据保存的方法,其中解决了编码问题和如何使用正则匹配数据的方法,详情看下文编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
Python爬取谷歌街景图片
最近有个需求是要爬取街景图片,国内厂商百度高德和腾讯地图都没有开放接口,查询资料得知谷歌地图开放街景api 谷歌捷径申请key地址:https://developers.google.com/maps ...
利用Python爬取网页图片
最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: Python 3.6官网下载我们这里以sogou作为爬取的对象. 首先我们进入搜狗图片 ...
Python 爬取美女图片，分目录多级存储
最近有个需求:下载https://mm.meiji2.com/网站的图片. 所以简单研究了一下爬虫. 在此整理一下结果,一为自己记录,二给后人一些方向. 爬取结果如图: 整体研究周期 2-3 天, ...
Day11 (黑客成长日记) 爬取网站图片
#导入第三方库# coding:utf-8import requests,re #找到需要爬取的网站'http://www.qqjia.com/sucai/sucai1210.htm' #1>获 ...
webmagic 二次开发爬虫爬取网站图片
webmagic的是一个无须配置.便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫. webmagic介绍编写一个简单的爬虫 webmagic的使用文档:http://w ...
使用ajax爬取网站图片()
以下内容转载自:https://www.makcyun.top/web_scraping_withpython4.html 文章关于网站使用Ajaxj技术加载页面数据,进行爬取讲的很详细大致步骤如下 ...
使用Jsoup爬取网站图片
package com.test.pic.crawler; import java.io.File; import java.io.FileOutputStream; import java.io.I ...

随机推荐

BEA-290074 <Deployment service servlet received file download request for file "security/SerializedSystemIni.dat". The file may exist, but download of this file is not allowed.>
Bug 19766239 - WLS 12.1.3 - MS NOT STARTING - 'DOWNLOAD OF THIS FILE IS NOT ALLOWED' Issue is fixed ...
Hibernate关联关系映射之一对一（主键关联）
在业务成的域模型中,类和类之间最普遍的关系就是关联关系,而关联也是有方向的. 就以例子来说明:一个人对应一张身份证.对其进行增删改. 对于人在数据创建表的时候,我们就给他两个字段,一个是id号,一个就 ...
JSONPath使用说明
# JSONPath - XPath for JSON A frequently emphasized advantage of XML is the availability of plenty t ...
df说磁盘空间满了, du说没有，到底谁是对的
同事求助, 他在删掉一个很大的文件后, 磁盘空间依旧没释放.上去一看, 果然 df 看到磁盘空间占用依旧是100%,等等 du 看了一把,磁盘空间剩余很大. 造成这个原因是因为进程依旧打 ...
使用node.js的开发框架express创建一个web应用
1.1.1:搭建环境 1.安装Express 按键:Windows+R=>输入cmd,打开命令行,输入 npm install -g express@3 我们需要用全 ...
Netbeans 8.0配置Python开发环境
1. 菜单栏:工具->插件->设置->添加配置如下信息: http://deadlock.netbeans.org/hudson/job/nbms-and-javadoc/last ...
POJ 2607 Fire Station(Floyd打表+枚举更新最优)
题目链接: http://poj.org/problem?id=2607 Description A city is served by a number of fire stations. Some ...
Repeater控件，判断最少选择一行记录
本演示中,教会大家使用jQuery来判断Repeater控件,最少选择一行记录. 在Repeater控件中,每行第一列放置一个CheckBox,然后在Repeater控件之外,放置一个Button按钮 ...
C# 全文搜索Lucene
全文出自:https://blog.csdn.net/huangwenhua5000/article/details/9341751 1 lucene简介1.1 什么是luceneLucene是一个全 ...
检测锁及死锁详细信息，及sql语句
SELECT SessionID = s.Session_id, l.request_session_id spid, a.blocked, a.start_time, a.ecid, OBJECT_ ...

【Python】爬取网站图片

【Python】爬取网站图片的更多相关文章

随机推荐

热门专题