Day11 (黑客成长日记) 爬取网站图片

#导入第三方库
# coding:utf-8
import requests,re

#找到需要爬取的网站'http://www.qqjia.com/sucai/sucai1210.htm'

#1>获取网站  2>正则表达式匹配不同图片的地址   3>找到所有图片的URL
#开发讲究见名识意

#1.1 定义一个函数get到url
def get_urls():
    #（1）获取网站
    response = requests.get('http://www.qqjia.com/sucai/sucai1210.htm')
    # (2)通过正则匹配地址re库,共有的内容保存，不一样的用  .*？
    url_add = r'<img border="0" alt="" src="(.*?)" /></p>'
    #（3）找到所有图片的URL
    url_list = re.findall(url_add,response.text)
    # (4)打印验证
    print(url_list)
    return url_list
#第四步，下载网页数据
#再定义一个函数  目的：下载数据
def get_gif(url,name):
    #请求图片地址  ，传参
    response = requests.get(url)
    #下载图片到目标位置--》D:\pygif
    with open('D:\pygif\%d.gif'%name,'wb') as ft :
        ft.write(response.content)

    # (5)启动这个程序
if __name__ == '__main__':
    url_list = get_urls()
    a = 1
    for url in url_list:
        get_gif(url,a)
        a += 1

text是源代码，content是二进制数据

import requests,re

def url_get():

    response = requests.get('http://qq.yh31.com/zjbq/2920180.html')

    url_add = r'<img border="0" alt="" src="(.*?)" />'

    url_list = re.findall(url_add,response.text)

    print(url_list)

    return url_list

def download(url,name):

    response = requests.get(url)

    with open('D:\pygif\%d'%name,'wb') as ft :

        ft.write(response.content)

if __name__ == '__main__':

    url_list = url_get()

    a = 1

    for url in url_list:

        com_url = 'http://mm.yh31.com:88'+ url

        download(com_url, a)

        a += 1

Day11 (黑客成长日记) 爬取网站图片的更多相关文章

Python：爬取网站图片并保存至本地
Python:爬取网页图片并保存至本地 python3爬取网页中的图片到本地的过程如下: 1.爬取网页 2.获取图片地址 3.爬取图片内容并保存到本地实例:爬取百度贴吧首页图片. 代码如下: imp ...
webmagic 二次开发爬虫爬取网站图片
webmagic的是一个无须配置.便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫. webmagic介绍编写一个简单的爬虫 webmagic的使用文档:http://w ...
使用ajax爬取网站图片()
以下内容转载自:https://www.makcyun.top/web_scraping_withpython4.html 文章关于网站使用Ajaxj技术加载页面数据,进行爬取讲的很详细大致步骤如下 ...
使用Jsoup爬取网站图片
package com.test.pic.crawler; import java.io.File; import java.io.FileOutputStream; import java.io.I ...
jsoup爬取网站图片
package com.ij34.JsoupTest; import java.io.File; import java.io.FileOutputStream; import java.io.Inp ...
【Python】爬取网站图片
import requests import bs4 import urllib.request import urllib import os hdr = {'User-Agent': 'Mozil ...
Python爬虫学习（6）: 爬取MM图片
为了有趣我们今天就主要去爬取以下MM的图片,并将其按名保存在本地.要爬取的网站为: 大秀台模特网 1. 分析网站进入官网后我们发现有很多分类: 而我们要爬取的模特中的女模内容,点进入之后其网址为:h ...
百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...
python3爬取女神图片，破解盗链问题
title: python3爬取女神图片,破解盗链问题 date: 2018-04-22 08:26:00 tags: [python3,美女,图片抓取,爬虫, 盗链] comments: true ...

随机推荐

task 异步进程与线程的区别
用Wait方法(会以同步的方式来执行),不用Wait则会以异步的方式来执行要在主线程中等待后台线程执行完毕,可以使用Wait方法(会以同步的方式来执行).不用Wait则会以异步的方式来执行. Tas ...
RabbitMQ安装及使用
下载由于RabbitMQ是基于Erlang语言开发,所以在安装RabbitMQ之前,需要先安装Erlang.好在RabbitMQ官网已经为我们提供了Erlang的安装包 Erlang下载地址:htt ...
Linux 用户与组
在 Linux 操作系统下,如何添加一个新用户到一个特定的组中?如何同时将用户添加到多个组中?又如何将一个已存在的用户移动到某个组或者给他增加一个组?对于不常用 Linux 的人来讲,记忆 Linux ...
docker容器跑redis
命令行配置: $ docker search redis $ docker pull docker.io/redis $ mkdir -p /redis/etc/conf /redis/lib /r ...
step_by_step_CSRF/ XSRF_问题描述
接触Asp.net boilerplate 一段时间,一次同事将他的代码添加到zero项目模板中,他将路由配置成他的页面,目的是要让zero项目登录成功之后跳转到他的页面,可是通过fiddler监视请 ...
material palette
https://www.materialpalette.com/
Servlet第五篇（会话技术之Session）
Session 什么是Session Session 是另一种记录浏览器状态的机制.不同的是Cookie保存在浏览器中,Session保存在服务器中.用户使用浏览器访问服务器的时候,服务器把用户的信息 ...
Celery 1
Celery是一个用Python开发的异步的分布式任务调度模块 Celery有以下优点: 简单:一但熟悉了celery的工作流程后,配置和使用还是比较简单的高可用:当任务执行失败或执行过程中发生连接 ...
mac相关功能
打开和关闭索引功能打开:sudo mdutil -a -i on 关闭:sudo mdutil -a -i off 关闭后则无法搜
JVM深入理解
JVM深入理解一.JVM介绍 JVM应用百度百科的原话是: JVM是Java Virtual Machine(Java虚拟机)的缩写,JVM是一种用于计算设备的规范,它是一个虚构出来的计算机,是通过 ...

Day11 (黑客成长日记) 爬取网站图片

Day11 (黑客成长日记) 爬取网站图片的更多相关文章

随机推荐

热门专题