Requests 校花网图片爬取

纪念我们闹过的矛盾，只想平淡如水

import requests
import re
url = 'http://www.xiaohuar.com/list-1-%s.html'
for i in range(4):
    temp = url % i
    response =requests.get(temp)
    html = response.text

    #img_urls=re.findall(r"/d/file/\d+/\w+\.jpg",html)#取出图片URL
    #img_urls1 = re.findall(r"https://\w+.*?/\w+/\w+/\w+/\w+/\d+/\w+.*\.jpg", html)#取出图片URL
    #img_names = re.findall(r'<img \w+.*="\d+".*? alt="(.*?)"', html) #取出图片名称
    img=re.findall(r'<img \w+.*="\d+".*? alt="(.*?)".*"(/d/file/\d+/\w+\.jpg)"', html)
    for img_tupian in img:
        img_tupian_urls=img_tupian[-1]#取出图片Url
        img_name=img_tupian[0]#取出名称

        img_response=requests.get("http://www.xiaohuar.com%s" %img_tupian_urls)

        xiaohua=img_response.content
        name=("http://www.xiaohuar.com%s" %img_tupian_urls).split('/')[-1]
        print(houzui)
        with open(img_name +name,'wb') as f:
            f.write(xiaohua)


爬取结果还是有点不好看，有空想想把那些乱码去掉

Requests 校花网图片爬取的更多相关文章

python实战项目 — 爬取校花网图片
重点: 1. 指定路径创建文件夹,判断是否存在 2. 保存图片文件 # 获得校花网的地址,图片的链接 import re import requests import time import os ...
Go语言实战-爬取校花网图片
一.目标网站分析爬取校花网http://www.xiaohuar.com/大学校花所有图片. 经过分析,所有图片分为四个页面,http://www.xiaohuar.com/list-1-0.htm ...
Scrapy爬虫框架之爬取校花网图片
Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设 ...
初识scrapy，美空网图片爬取实战
这俩天研究了下scrapy爬虫框架,遂准备写个爬虫练练手.平时做的较多的事情是浏览图片,对,没错,就是那种艺术照,我骄傲的认为,多看美照一定能提高审美,并且成为一个优雅的程序员.O(∩_∩ ...
爬虫实战--基于requests和beautifulsoup的妹子网图片爬取（福利哦！）
#coding=utf-8 import requests from bs4 import BeautifulSoup import os all_url = 'http://www.mzitu.co ...
day1之校花网小试牛刀
一利用生成器来完成爬去校花网视频 import requests import re import os import hashlib import time DOWLOAD_PATH=r'D:\D ...
python爬虫基础应用----爬取校花网视频
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
Python 爬虫爬校花网！！
爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本 1.福利来了校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易不会受到打击,第二呢你懂得... 1.第一步,需要下载 ...
Python-爬取校花网视频(单线程和多线程版本)
一.参考文章 python爬虫爬取校花网视频,单线程爬取爬虫----爬取校花网视频,包含多线程版本上述两篇文章都是对校花网视频的爬取,由于时间相隔很久了,校花网上的一些视频已经不存在了,因此上述文 ...

随机推荐

Mybatis-generator生成Service和Controller
好久记录笔记,这段时间做政府的项目,数据录入系统基本都是通过excel导入,且数据量大,许多也是单表的录入,这就有很多可以通用的代码,如controller,service层的那一套都是可以代码生成, ...
tf.transpose()的用法
一.tensorflow官方文档内容 transpose( a, perm=None, name='transpose' ) Defined in tensorflow/python/ops/arra ...
MySQL 5.6 GTID Replication
一. MySQL 5.6引入了GTID的概念,那么GTID是何方神圣?其实也不复杂,就是一个全局事务标示符.使用GTID时,每次事务提交都会在binlog里生成1个唯一的标示符,它由UUID和事务ID ...
JavaWeb学习（二十二）———EL表达式
一.EL表达式简介 EL 全名为Expression Language.EL主要作用: 1.获取数据 EL表达式主要用于替换JSP页面中的脚本表达式,以从各种类型的web域中检索java对象.获取数 ...
FFmpeg使用基础
本文为作者原创,转载请注明出处:https://www.cnblogs.com/leisure_chn/p/10297002.html 本文介绍FFmpeg最基础的概念,了解FFmpeg的简单使用,帮 ...
按值传递 vs. 按指针传递
按值传递还是指针传递? 变量赋值有两种方式:按值传递.按"指针"传递(指针也常称为"引用").不同的编程语言赋值的方式不一样,例如Python是按"指 ...
[转]Angular 4 *ngIf/Else
本文转自:http://tylerscode.com/2017/03/angular-4-ngifelse/ As you may know it wasn’t that many months ag ...
jQuery 获取对象根据属性、内容匹配, 还有表单元素匹配
指定元素中包含 id 属性的, 如: $("span[id]") 代码如下: <span id="span1" name="S1"&g ...
Python带你轻松进行网页爬虫
前不久DotNet开源大本营通过为.NET程序员演示如何在.NET下使用C#+HtmlAgilityPack+XPath进行网页数据的抓取,从而为我们展示了HtmlAgilitypack利器的优点和使 ...
canvas-0trasform.html
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

Requests 校花网图片爬取

Requests 校花网图片爬取的更多相关文章

随机推荐

热门专题