python爬虫获取下一页

from time import sleep

import faker

import requests

from lxml import etree

fake = faker.Faker()

base_url = "http://angelimg.spbeen.com"

def get_next_link(url):

    content = downloadHtml(url)

    html = etree.HTML(content)

    next_url = html.xpath("//a[@class='ch next']/@href")

    if next_url:

        return base_url + next_url[0]

    else:

        return False

def downloadHtml(ur):

    user_agent = fake.user_agent()

    headers = {'User-Agent': user_agent,"Referer":"http://angelimg.spbeen.com/"}

    response = requests.get(url, headers=headers)

    return response.text

def getImgUrl(content):

    html  = etree.HTML(content)

    img_url = html.xpath('//*[@id="content"]/a/img/@src')

    title = html.xpath(".//div['@class=article']/h2/text()")

    return img_url[0],title[0]

def saveImg(title,img_url):

    if img_url is not None and title is not None:

        with open("txt/"+str(title)+".jpg",'wb') as f:

            user_agent = fake.user_agent()

            headers = {'User-Agent': user_agent,"Referer":"http://angelimg.spbeen.com/"}

            content = requests.get(img_url, headers=headers)

            #request_view(content)

            f.write(content.content)

            f.close()

def request_view(response):

    import webbrowser

    request_url = response.url

    base_url = '<head><base href="%s">' %(request_url)

    base_url = base_url.encode()

    content = response.content.replace(b"<head>",base_url)

    tem_html = open('tmp.html','wb')

    tem_html.write(content)

    tem_html.close()

    webbrowser.open_new_tab('tmp.html')

def crawl_img(url):

    content = downloadHtml(url)

    res = getImgUrl(content)

    title = res[1]

    img_url = res[0]

    saveImg(title,img_url)

if __name__ == "__main__":

    url = "http://angelimg.spbeen.com/ang/4968/1"

    while url:

        print(url)

        crawl_img(url)

        url = get_next_link(url)

还有种方式，获取到总页数，再循环

python爬虫获取下一页的更多相关文章

xpath获取下一页,兄弟结点的妙用
第一页的情况: 第四页的情况 : 文章的链接: http://tech.huanqiu.com/science/2018-02/11605853_4.html 从上面我们可以看到,如果仅仅用xpat ...
[Python]爬虫获取知乎某个问题下所有图片并去除水印
获取URL 进入某个知乎问题的主页下,按F12打开开发者工具后查看network面板. network面板可以查看页面向服务器请求的资源.资源的大小.加载资源花费的时间以及哪些资源加载失败等信息.还可 ...
Android ListView上拉获取下一页
关于ListView上拉刷新的需求很多,实现方式也多种多样. 一般是简单的通过一个page变量来控制当前请求的页数,然后上拉的时候就发送请求. 实现出来后,经过测试哥的折腾,发现有诸多细节没有处理好, ...
如何科学地蹭热点：用python爬虫获取热门微博评论并进行情感分析
前言:本文主要涉及知识点包括新浪微博爬虫.python对数据库的简单读写.简单的列表数据去重.简单的自然语言处理(snowNLP模块.机器学习).适合有一定编程基础,并对python有所了解的盆友阅读 ...
Python爬虫获取知乎图片
前段时间想抓点知乎问题中的图片,了解了下爬虫,发现还是Python的简单方便,于是做了点尝试. #coding=utf-8 import urllib import re def getHtml(ur ...
Python爬虫获取异步加载站点pexels并下载图片(Python爬虫实战3)
1. 异步加载爬虫对于静态页面爬虫很容易获取到站点的数据内容,然而静态页面需要全量加载站点的所有数据,对于网站的访问和带宽是巨大的挑战,对于高并发和大访问访问量的站点来说,需要使用AJAX相关的技术 ...
python爬虫获取百度图片（没有精华，只为娱乐）
python3.7,爬虫技术,获取百度图片资源,msg为查询内容,cnt为查询的页数,大家快点来爬起来.注:现在只能爬取到百度的小图片,以后有大图片的方法,我会陆续发贴. #!/usr/bin/env ...
Python爬虫获取百度贴吧图片
#!/usr/bin/python# -*- coding: UTF-8 -*-import urllibimport re文章来源:https://www.cnblogs.com/Axi8/p/57 ...
Python爬虫获取迅雷会员帐号
代码如下: import re import urllib.request import urllib import time from collections import deque head = ...

随机推荐

IAR错误Error[e16]: Segment ISTACK (size: 0xc0 align: 0) is too long for segment definition. At least 0xd more bytes needed. The problem occurred while processing the segment 的解决办法
IAR for 8051 IDE version 9.10.1编译阿莫单片机的cc2541程序osal第一节教程出现错误如下出错的愿意是iar设置错误.所以需修改IAR的设置. 解决办法如下: 即可 ...
python循环输出
python 目录 python 1.九九乘法表 2.循环输出数字0-9,数字为六,跳出循环,执行其他循环,数字为八,结束循环 3.使用循环计算0-100素数的和 4.使用for循环输出三角形 1.九 ...
StringBuilder 比 String 快？空嘴白牙的，证据呢！
作者:小傅哥博客:https://bugstack.cn 沉淀.分享.成长,让自己和他人都能有所收获! 一.前言聊的是八股的文,干的是搬砖的活! 面我的题开发都用不到,你为什么要问?可能这是大部分 ...
聊聊分布式下的WebSocket解决方案
前言最近王子自己搭建了个项目,项目本身很简单,但是里面有使用WebSocket进行消息提醒的功能,大体情况是这样的. 发布消息者在系统中发送消息,实时的把消息推送给对应的一个部门下的所有人. 这里面 ...
Oracle学习（十四）分表分区
一.前言大数据量的查询,不仅查询速度非常慢,而且还会导致数据库经常宕机,在尝试添加索引及查询方式修改后,还有没有更有效的解决方案呢? 分库.分表.分区这些概念咱就应该了解一下. 二.分表假如一个大 ...
一篇带你熟悉ansible-playbook剧本
#playbook介绍 #playbook简单介绍 playbook翻译过来就是剧本,以yml/yaml为后缀结尾的一个文本文件 #playbook组成:分为两部分play(定义主机的角色)和task ...
@RequestParam，@RequestBody，@ResponseBody，@PathVariable注解的一点小总结
一.前提知识: http协议规定一次请求对应一次响应,根据不同的请求方式,请求的内容会有所不同: 发送GET请求是没有请求体的,参数会直接拼接保留到url后一并发送: 而POST请求是带有请求体的,带 ...
c++11 新特性实战（一）：多线程操作
c++11多线程操作线程 thread int main() { thread t1(Test1); t1.join(); thread t2(Test2); t2.join(); thread t ...
Android 字符串的常用操作
目录 Substring 基本语法 IndexOf 基本语法 Split 基本语法 Substring 基本语法 str.substring(","); //从第一个,号开始截取 ...
Go-注释
什么是注释? 注释是给开发人员看的,目的是降低开发人员阅读代码的时间成本和代码阅读困难程度 Go-注释内容 1. 包注释,位于某个包下Go程序文件的顶部 2. 函数注释,位于Go函数的头部 3. 代码 ...

python爬虫获取下一页

python爬虫获取下一页的更多相关文章

随机推荐

热门专题