Requests 校花网图片爬取

纪念我们闹过的矛盾，只想平淡如水

import requests
import re
url = 'http://www.xiaohuar.com/list-1-%s.html'
for i in range(4):
    temp = url % i
    response =requests.get(temp)
    html = response.text

    #img_urls=re.findall(r"/d/file/\d+/\w+\.jpg",html)#取出图片URL
    #img_urls1 = re.findall(r"https://\w+.*?/\w+/\w+/\w+/\w+/\d+/\w+.*\.jpg", html)#取出图片URL
    #img_names = re.findall(r'<img \w+.*="\d+".*? alt="(.*?)"', html) #取出图片名称
    img=re.findall(r'<img \w+.*="\d+".*? alt="(.*?)".*"(/d/file/\d+/\w+\.jpg)"', html)
    for img_tupian in img:
        img_tupian_urls=img_tupian[-1]#取出图片Url
        img_name=img_tupian[0]#取出名称

        img_response=requests.get("http://www.xiaohuar.com%s" %img_tupian_urls)

        xiaohua=img_response.content
        name=("http://www.xiaohuar.com%s" %img_tupian_urls).split('/')[-1]
        print(houzui)
        with open(img_name +name,'wb') as f:
            f.write(xiaohua)


爬取结果还是有点不好看，有空想想把那些乱码去掉

Requests 校花网图片爬取的更多相关文章

python实战项目 — 爬取校花网图片
重点: 1. 指定路径创建文件夹,判断是否存在 2. 保存图片文件 # 获得校花网的地址,图片的链接 import re import requests import time import os ...
Go语言实战-爬取校花网图片
一.目标网站分析爬取校花网http://www.xiaohuar.com/大学校花所有图片. 经过分析,所有图片分为四个页面,http://www.xiaohuar.com/list-1-0.htm ...
Scrapy爬虫框架之爬取校花网图片
Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设 ...
初识scrapy，美空网图片爬取实战
这俩天研究了下scrapy爬虫框架,遂准备写个爬虫练练手.平时做的较多的事情是浏览图片,对,没错,就是那种艺术照,我骄傲的认为,多看美照一定能提高审美,并且成为一个优雅的程序员.O(∩_∩ ...
爬虫实战--基于requests和beautifulsoup的妹子网图片爬取（福利哦！）
#coding=utf-8 import requests from bs4 import BeautifulSoup import os all_url = 'http://www.mzitu.co ...
day1之校花网小试牛刀
一利用生成器来完成爬去校花网视频 import requests import re import os import hashlib import time DOWLOAD_PATH=r'D:\D ...
python爬虫基础应用----爬取校花网视频
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
Python 爬虫爬校花网！！
爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本 1.福利来了校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易不会受到打击,第二呢你懂得... 1.第一步,需要下载 ...
Python-爬取校花网视频(单线程和多线程版本)
一.参考文章 python爬虫爬取校花网视频,单线程爬取爬虫----爬取校花网视频,包含多线程版本上述两篇文章都是对校花网视频的爬取,由于时间相隔很久了,校花网上的一些视频已经不存在了,因此上述文 ...

随机推荐

LDA-线性判别分析（一）预备知识
本来是要调研 Latent Dirichlet Allocation 的那个 LDA 的, 没想到查到很多关于 Linear Discriminant Analysis 这个 LDA 的资料.初步看了 ...
Django--分页器（paginator）
1 Django的分页器(paginator)简介在页面显示分页数据,需要用到Django分页器组件 from django.core.paginator import Paginator Pagi ...
（剑指Offer）面试题45：圆圈中最后剩下的数字
题目: 0,1,...n-1这n个数字排成一个圆圈,从数字0开始每次从这个圆圈里删除第m个数字,求出这个圆圈里剩下的最后一个数字. 思路: 1.环形链表模拟圆圈创建一个n个节点的环形链表,然后每次在 ...
TkMyBatis大杂烩
1. 什么是TkMyBatis TkMyBatis是一个MyBatis的通用Mapper工具 2. 引入TkMyBatis到SpringBoot项目以Gradle为例 compile 'tk.myb ...
win10 HTTP 错误 500.21 - Internal Server Error
错误描述: HTTP 错误 500.21 - Internal Server Error 处理程序“ExtensionlessUrlHandler-Integrated-4.0”在其模块列表中有一个错 ...
Linux tar 命令用法
tar 命令可以为linux的文件和目录创建档案.利用 tar,可以为某一特定文件创建档案(备份文件),也可以在档案中改变文件,或者向档案中加入新的文件.tar 最初被用来在磁带上创建档案,现在,用户 ...
int和Integer有什么区别？
Java提供两种不同的类型:引用类型和原始类型(或内置类型): int是Java的原始数据类型,Integer是java为int提供的封装类. java为每个原始类型提供了封装类: 原始类型:bool ...
win10 uwp 渲染原理 DirectComposition 渲染
本文来告诉大家一个新的技术DirectComposition,在 win7 之后(实际上是 vista),微软正在考虑一个新的渲染机制在 Windows Vista 就引入了一个服务,桌面窗口管理器 ...
.net 服务端访问共享文件夹
共享文件夹所在电脑为A服务器,网站部署在B服务器 A,B服务器上拥有同名账户,且密码也要相同.如账户名share,密码123. A服务器上,共享文件夹设置share账户有读写权限 B服务器上,IIS中 ...
Spring Security OAuth2 SSO 单点登录
基于 Spring Security OAuth2 SSO 单点登录系统 SSO简介单点登录(英语:Single sign-on,缩写为 SSO),又译为单一签入,一种对于许多相互关连,但是又是各自 ...

Requests 校花网图片爬取

Requests 校花网图片爬取的更多相关文章

随机推荐

热门专题