python爬虫获取下一页

from time import sleep

import faker

import requests

from lxml import etree

fake = faker.Faker()

base_url = "http://angelimg.spbeen.com"

def get_next_link(url):

    content = downloadHtml(url)

    html = etree.HTML(content)

    next_url = html.xpath("//a[@class='ch next']/@href")

    if next_url:

        return base_url + next_url[0]

    else:

        return False

def downloadHtml(ur):

    user_agent = fake.user_agent()

    headers = {'User-Agent': user_agent,"Referer":"http://angelimg.spbeen.com/"}

    response = requests.get(url, headers=headers)

    return response.text

def getImgUrl(content):

    html  = etree.HTML(content)

    img_url = html.xpath('//*[@id="content"]/a/img/@src')

    title = html.xpath(".//div['@class=article']/h2/text()")

    return img_url[0],title[0]

def saveImg(title,img_url):

    if img_url is not None and title is not None:

        with open("txt/"+str(title)+".jpg",'wb') as f:

            user_agent = fake.user_agent()

            headers = {'User-Agent': user_agent,"Referer":"http://angelimg.spbeen.com/"}

            content = requests.get(img_url, headers=headers)

            #request_view(content)

            f.write(content.content)

            f.close()

def request_view(response):

    import webbrowser

    request_url = response.url

    base_url = '<head><base href="%s">' %(request_url)

    base_url = base_url.encode()

    content = response.content.replace(b"<head>",base_url)

    tem_html = open('tmp.html','wb')

    tem_html.write(content)

    tem_html.close()

    webbrowser.open_new_tab('tmp.html')

def crawl_img(url):

    content = downloadHtml(url)

    res = getImgUrl(content)

    title = res[1]

    img_url = res[0]

    saveImg(title,img_url)

if __name__ == "__main__":

    url = "http://angelimg.spbeen.com/ang/4968/1"

    while url:

        print(url)

        crawl_img(url)

        url = get_next_link(url)

还有种方式，获取到总页数，再循环

python爬虫获取下一页的更多相关文章

xpath获取下一页,兄弟结点的妙用
第一页的情况: 第四页的情况 : 文章的链接: http://tech.huanqiu.com/science/2018-02/11605853_4.html 从上面我们可以看到,如果仅仅用xpat ...
[Python]爬虫获取知乎某个问题下所有图片并去除水印
获取URL 进入某个知乎问题的主页下,按F12打开开发者工具后查看network面板. network面板可以查看页面向服务器请求的资源.资源的大小.加载资源花费的时间以及哪些资源加载失败等信息.还可 ...
Android ListView上拉获取下一页
关于ListView上拉刷新的需求很多,实现方式也多种多样. 一般是简单的通过一个page变量来控制当前请求的页数,然后上拉的时候就发送请求. 实现出来后,经过测试哥的折腾,发现有诸多细节没有处理好, ...
如何科学地蹭热点：用python爬虫获取热门微博评论并进行情感分析
前言:本文主要涉及知识点包括新浪微博爬虫.python对数据库的简单读写.简单的列表数据去重.简单的自然语言处理(snowNLP模块.机器学习).适合有一定编程基础,并对python有所了解的盆友阅读 ...
Python爬虫获取知乎图片
前段时间想抓点知乎问题中的图片,了解了下爬虫,发现还是Python的简单方便,于是做了点尝试. #coding=utf-8 import urllib import re def getHtml(ur ...
Python爬虫获取异步加载站点pexels并下载图片(Python爬虫实战3)
1. 异步加载爬虫对于静态页面爬虫很容易获取到站点的数据内容,然而静态页面需要全量加载站点的所有数据,对于网站的访问和带宽是巨大的挑战,对于高并发和大访问访问量的站点来说,需要使用AJAX相关的技术 ...
python爬虫获取百度图片（没有精华，只为娱乐）
python3.7,爬虫技术,获取百度图片资源,msg为查询内容,cnt为查询的页数,大家快点来爬起来.注:现在只能爬取到百度的小图片,以后有大图片的方法,我会陆续发贴. #!/usr/bin/env ...
Python爬虫获取百度贴吧图片
#!/usr/bin/python# -*- coding: UTF-8 -*-import urllibimport re文章来源:https://www.cnblogs.com/Axi8/p/57 ...
Python爬虫获取迅雷会员帐号
代码如下: import re import urllib.request import urllib import time from collections import deque head = ...

随机推荐

Fliptile(POJ 3279)
原题如下: Fliptile Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 16494 Accepted: 6025 D ...
selenium常用api之切换：table切换、alert弹框切换、iframe框架切换
10.查看浏览器打开了多少个table和当前页面在哪个table 测试:打开了浏览器后,打开了一个新的标签页之后,显示此时有2个table,浏览器中当前页面展示的是第2个页面,但是代码打印显示的仍然是 ...
[LeetCode] 22. 括号生成（回溯/DP）
题目给出 n 代表生成括号的对数,请你写出一个函数,使其能够生成所有可能的并且有效的括号组合. 例如,给出 n = 3,生成结果为: [ "((()))", "(()( ...
使用U盘的PE系统安装Windows10操作系统 - 初学者系列 - 学习者系列文章
今天闲来无事,就把windows 10的安装再重写一个文(以前写过一个:安装免费的正版Windows10操作系统 - 初学者系列 - 学习者系列文章 ). 1. 制作一个WinPE的U盘. 相信现 ...
pytest封神之路第三步精通fixture
首先放一句"狠话". 如果你不会fixture,那么你最好别说自己会pytest. (只是为了烘托主题哈,手上的砖头可以放下了,手动滑稽) fixture是什么看看源码 def ...
python3-day2
一.列表,元组的操作 1)定义列表 names = ['Lisi',"Zhangsan",'Eric'] 2)通过下标访问列表中的元素,下标从0开始计数 1 >>> ...
《我想进大厂》之MQ夺命连环11问
继之前的mysql夺命连环之后,我发现我这个标题被好多套用的,什么夺命zookeeper,夺命多线程一大堆,这一次,开始面试题系列MQ专题,消息队列作为日常常见的使用中间件,面试也是必问的点之一,一起 ...
Centos-gizp压缩文件-gzip gunzip
gzip gunzip 将一般文件进行压缩或者解压,默认扩展名为 .gz, 本质上 gunzip是gzip硬链接,压缩和解压都可以通过gzip完成 gzip 相关选项 -d 解压 -r 递归压缩目录下 ...
makefile实验四编译本地的源文件 + 变量的高级主题一
<一>编译本地的源文件 + 变量的模式替换实验代码 root@ubuntu:~/Makefile_Test/5make_test# vim makefile target := t ...
spring-boot-route（四）全局异常处理
在开发中,我们经常会使用try/catch块来捕获异常进行处理,如果有些代码中忘记捕获异常或者不可见的一些异常出现,就会响应给前端一些不友好的提示,这时候我们可以使用全局异常处理.这样就不用在代码中写 ...

python爬虫获取下一页

python爬虫获取下一页的更多相关文章

随机推荐

热门专题