Xpath--使用Xpath爬取糗事百科成人版图片

#!usr/bin/env python
#-*- coding:utf-8 _*-
"""
@author:Hurrican
@file: 爬取糗事百科.py
@time: 2018/11/29 20:43

"""
'''
content返回的是byte型数据，而text返回的是Unicode数据，也就是说text对原始数据进行的特殊的编码，而这个编码方式是基于对原始数据的猜测(响应头)，
text一般用于返回的文本 content的一般用于对返回的其他数据类型
但是对于某些网站的中文用text可能会导致返回乱码，所以最好是使用content然后自己进行重新编码。
'''
#这里我只爬取了10页。因为节约电脑空间，哈哈
import requests
from lxml import etree
url_list = ["http://www.qiumeimei.com/page/{}".format(str(i)) for i in range(1,11)]
for url in url_list:
    r  = requests.get(url)
    ret = r.content.decode()  #转化字符
    result = etree.HTML(ret)
    img_list = result.xpath('//div[@class="home_main_wrap"]/div[@class="panel clearfix"]/div[@class="main clearfix"]/p/img/@data-lazy-src')  #// 代表首元素 一定要双斜杠  
    print(img_list)
    for img in img_list:
        with open('C:\\Users\\Hurrican\\PycharmProjects\\01\\img\\%s'%img[-10:],'wb') as f:
            try:
                r = requests.get(img)
                f.write(r.content)
                print("正在下载%s"%img)
            except Exception as e:
                print(e)

print("下载完成")

Xpath--使用Xpath爬取糗事百科成人版图片的更多相关文章

Python抓取糗事百科成人版图片
最近开始学习爬虫,一开始看的是静觅的爬虫系列文章,今天看到糗事百科成人版,心里就邪恶了一下,把图片都爬下来吧,哈哈~ 虽然后来实现了,但还是存在一些问题,暂且不提,先切入正题吧,没什么好说的,直接上代 ...
案例_(单线程)使用xpath爬取糗事百科
案例_(单线程)使用xpath爬取糗事百科步骤如下: 首先通过xpath插件找出我们要爬取的信息的匹配规则 url = "https://www.qiushibaike.com/8hr/p ...
爬取糗事百科热门段子的数据并保存到本地，xpath的使用
和之前的爬虫类博客的爬取思路基本一致: 构造url_list,因为糗事百科的热门栏目默认是13页,所以这个就简单了遍历发送请求获取响应提取数据,这里用的是xpath提取,用的是Python的第三方 ...
16-多线程爬取糗事百科（python+Tread）
https://www.cnblogs.com/alamZ/p/7414020.html 课件内容 #_*_ coding: utf-8 _*_ ''' Created on 2018年7月17日 ...
python_爬虫一之爬取糗事百科上的段子
目标抓取糗事百科上的段子实现每按一次回车显示一个段子输入想要看的页数,按 'Q' 或者 'q' 退出实现思路目标网址:糗事百科使用requests抓取页面 requests官方教程使用 ...
8.Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
python网络爬虫--简单爬取糗事百科
刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4 ...
python学习（十六）写爬虫爬取糗事百科段子
原文链接:爬取糗事百科段子利用前面学到的文件.正则表达式.urllib的知识,综合运用,爬取糗事百科的段子先用urllib库获取糗事百科热帖第一页的数据.并打开文件进行保存,正好可以熟悉一下之前学过 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...

随机推荐

mysql优化sql语句
mysql优化sql语句常见误区 www.2cto.com 误区1: count(1)和count(primary_key) 优于 count(*) 很多人为了统计记录条数,就使 ...
ElasticSearch中profile API的使用
1. 前言 profile API 是 Elasticsearch 5.x 的一个新接口.通过这个功能,可以看到一个搜索聚合请求,是如何拆分成底层的 Lucene 请求,并且显示每部分的耗时情况. 2 ...
0709MySQL 数据库性能优化之表结构优化
转自http://isky000.com/database/mysql-perfornamce-tuning-schema MySQL 数据库性能优化之缓存参数优化 MySQL数据库性能优化之硬件瓶颈 ...
RubyMine中自动完成只输入部分字母
RubyMine中自动完成只输入部分字母 1,有下划线情况(其实看第二点跟下划线就关系不大了) 对于attr_reader之类的输入,输入attr之后,下划线可以不输入,然后输入r或者e都可以出来, ...
Android 安装应用后点击打开带来的问题
今天安装完APP的时候.界面会显示两个button,一个完毕键,一个打开键,点击Open键之后,外部打开应用.此时,我们点击HOME键.程序将会在后台. 然后再点击该桌面上应用程序的图标,app会自己 ...
javascript的==和===,以及if(xxx)总结
转载请注明本文出自:http://blog.csdn.net/nancle 首先说==和=== 首先说明一个非常特殊的值NaN, typeof(Nav)得到'number',可是NaN不等于不论什么 ...
Android——build.prop 解析【转】
本文转载自:http://blog.csdn.net/lengyue1084/article/details/77637354 一.概念在Android设备shell终端可以看到/system目录下 ...
Linq的Except
https://msdn.microsoft.com/en-us/library/bb300779(v=vs.100).aspx , , , }; , , , }; var list = list1. ...
Head First 设计模式 —— 装饰器模式
1. 装饰器模式与继承与装饰器模式相比,继承更容易造成类爆炸: 装饰器模式:利用组合取代继承:
【POJ 1703】 Find them,Catch them
[题目链接] http://poj.org/problem?id=1703 [算法] 并查集 + 拆点 [代码] #include <algorithm> #include <bit ...

Xpath--使用Xpath爬取糗事百科成人版图片

Xpath--使用Xpath爬取糗事百科成人版图片的更多相关文章

随机推荐

热门专题