python 爬虫糗百成人

import urllib

from time import sleep

import requests

from lxml import etree

try:

    def all_links(url,page):

        # if "900.html" in url:

        #     print("结束");

        #     return None

        url = url + str(page) + ".html";

        response = requests.get(url)

        print(url, response.status_code)

        html = etree.HTML(response.content.decode('gbk'))

        ## 获取图片 并且保存

        imgs = html.xpath('.//div[@id="wrapper"]//div[@class="ui-module"]//img/@src')

        for img in imgs:

            file_name = img.split('/')[-1]

            first = img.split('/')[0]

            if first != 'http:' and first != 'https:':

                print("错误图片"+img)

            else:

                dir_path = "/www/spider/images/"

                try:

                    file_content = requests.get(img)

                    if file_content.status_code != 200:

                        print(img,"下载失败")

                    else:

                        #urllib.request.urlretrieve(img, dir_path + file_name)

                        with open(dir_path+file_name,"wb") as f:

                            f.write(file_content.content)

                            print("保存图片" + dir_path + file_name + "成功")

                except Exception as ee:

                    print(str(ee))

        # links = html.xpath('.//div[@class="page"]//a[contains(text(),"下一页")]/@href')

        # print(links)

        # if len(links) < 1:

        #     pass

        # else:

        sleep(1)

        host = 'http://www.qiubaichengren.net/'

        next_page = page + 1

        all_links(host,next_page)

    for i in range(1,991):

        all_links("http://www.qiubaichengren.net/",354)

except Exception as e:

    print(str(e))

循环的版本

import urllib
from time import sleep

import requests
from lxml import etree

try:
    def all_links(url):
        if "100.html" in url:
            print("结束");
            return None
        response = requests.get(url)
        print(url, response.status_code)
        html = etree.HTML(response.content.decode('gbk'))
        ## 获取图片 并且保存
        imgs = html.xpath('.//div[@id="wrapper"]//div[@class="ui-module"]//img/@src')
        for img in imgs:
            file_name = img.split('/')[-1]
            first = img.split('/')[0]
            if first != 'http:' and first != 'https:':
                print("错误图片"+img)
            else:
                dir_path = "d:\\www\\spider\\images\\"
                urllib.request.urlretrieve(img, dir_path + file_name)
                print("保存图片" + dir_path + file_name + "成功")
        links = html.xpath('.//div[@class="page"]//a[contains(text(),"下一页")]/@href')
        print(links)
        if len(links) < 1:
            pass
        else:
            sleep(5)
            host = 'http://www.qiubaichengren.net/'
            new_url = host + links[0];
            all_links(new_url)
    all_links("http://www.qiubaichengren.net/8.html")
except Exception as e:
    print(str(e))

python 爬虫糗百成人的更多相关文章

Python爬虫实例：糗百
看了下python爬虫用法,正则匹配过滤对应字段,这里进行最强外功:copy大法实践一开始是直接从参考链接复制粘贴的,发现由于糗百改版导致失败,这里对新版html分析后进行了简单改进,把整理过程记录 ...
Python爬虫学习：四、headers和data的获取
之前在学习爬虫时,偶尔会遇到一些问题是有些网站需要登录后才能爬取内容,有的网站会识别是否是由浏览器发出的请求. 一.headers的获取就以博客园的首页为例:http://www.cnblogs.c ...
Python爬虫——Python 岗位分析报告
前两篇我们分别爬取了糗事百科和妹子图网站,学习了 Requests, Beautiful Soup 的基本使用.不过前两篇都是从静态 HTML 页面中来筛选出我们需要的信息.这一篇我们来学习下如何来获 ...
python 爬虫（转，我使用的python3）
原文地址:http://blog.csdn.net/pi9nc/article/details/9734437 [Python]网络爬虫(一):抓取网页的含义和URL基本构成分类: 爬虫 Pyt ...
Python爬虫(一)爬百度贴吧
简单的GET请求: # python2 import urllib2 response = urllib2.urlopen('http://www.baidu.com') html = respons ...
Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
python爬虫成长之路（一）：抓取证券之星的股票数据
获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为python3.5,意在抓取证券之星上当天所 ...
python爬虫学习(7) —— 爬取你的AC代码
上一篇文章中,我们介绍了python爬虫利器--requests,并且拿HDU做了小测试. 这篇文章,我们来爬取一下自己AC的代码. 1 确定ac代码对应的页面如下图所示,我们一般情况可以通过该顺序 ...
python爬虫学习(6) —— 神器 Requests
Requests 是使用 Apache2 Licensed 许可证的 HTTP 库.用 Python 编写,真正的为人类着想. Python 标准库中的 urllib2 模块提供了你所需要的大多数 H ...

随机推荐

django模板的变量，标签，过滤器和自定义过滤器，注释
模板的作用是计算并输出: {{ 变量}} 当模版引擎遇到点如book.title,会按照下列顺序解析: 1.字典book['title'] 2.先属性后方法,将book当作对象,查找属性title,如 ...
HTTP学习之URL与资源
URL是因特网资源的标准化名称,该字符串指向一条电子信息片段,定义服务端应用程序在什么位置以及客户端要如何与其交互一条完整的URL由多个片段组成. 通用URL组件方案以哪种协议访问服务器用户 ...
GDB简单使用
GDB简单使用更多请参考:https://www.cnblogs.com/HKUI/p/8955443.html https://www.cnblogs.com/skyofbitbit/p/3672 ...
LeetCode-Algorithms 1. 两数之和
个人练习记录给定一个整数数组和一个目标值,找出数组中和为目标值的两个数. 你可以假设每个输入只对应一种答案,且同样的元素不能被重复利用. 示例: 给定 nums = [2, 7, 11, 15], ...
查看 dll 是32位还是64位的 bat
******* @echo offset work_path=./cd %work_path% for /R %%s in (*.dll) do ( echo %%~nxs call dumpbin ...
20145226夏艺华逆向及Bof基础实践
逆向及Bof基础实践实践目标本次实践的对象是一个名为pwn1的linux可执行文件. 该程序正常执行流程是:main调用foo函数,foo函数会简单回显任何用户输入的字符串,如图所示: 该程序同时 ...
【调试】Linux下超强内存检测工具Valgrind
[调试]Linux下超强内存检测工具Valgrind 内容简介 Valgrind是什么? Valgrind的使用 Valgrind详细教程 1. Valgrind是什么? Valgrind是一套Lin ...
限时购校验小工具&dubbo异步调用实现限
本文来自网易云社区作者:张伟背景限时购是网易考拉目前比较常用的促销形式,但是前期创建一个限时购活动时需要各个BU按照指定的Excel格式进行选品提报,为了保证提报数据准确,运营需要人肉校验很多信 ...
android学习十 ActionBar
1.api level大于等于11 支持,或者使用兼容库,但兼容库的问题很多. 2.一个操作栏属于一个活动,并具有其生命周期 3.操作栏分3类:a.选项卡操作栏,b.列表操作栏,c.标准操作栏 4.获 ...
iOS WKWebView添加进度条02
之前写了一个是关于webview添加进度条的,现在补一个WKWebView进度条. //添加一个全局属性 @property(nonatomic,strong)CALayer *progresslay ...

python 爬虫 糗百成人

python 爬虫 糗百成人的更多相关文章

随机推荐

热门专题

python 爬虫糗百成人

python 爬虫糗百成人的更多相关文章