python3爬虫爬取煎蛋网妹纸图片（下篇）2018.6.25有效

分析完了真实图片链接地址，下面要做的就是写代码去实现了。想直接看源代码的可以点击这里

大致思路是：获取一个页面的的html---->使用正则表达式提取出图片hash值并进行base64解码--->将解码得到的结果进行拼接替换，得到原始图片地址--->对图片地址进行请求，对返回的content进行保存--->扩展到多个页面的爬取

首先请求一个页面，我们以http://jandan.net/ooxx/page-47#comments也就是首页为例（网站会不时变动，下次可能就不是这个page值了）

def get_page_html(url):

    headers = {

        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'

    }

    try:

        response = requests.get(url, headers=headers)

        if response.status_code == 200:

            return response.text

        return None

    except Exception as e:

        print(e)

然后使用正则表达式提取图片hash值

def get_real_img(html):

    pattern = re.compile('<span class="img-hash">(.*?)</span>')

    imgs_hash = re.findall(pattern, html)

    for img_hash in imgs_hash:

        yield base64_decode(img_hash)

使用base64解码

def base64_decode(img_hash):

    img_hash = base64.b64decode(img_hash)

    return img_hash

对图片进行请求

def get_img_content(url):

    headers = {

        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'

    }

    try:

        response = requests.get(url, headers=headers)

        if response.status_code == 200:

            save_img(url, response.content)

        return None

    except Exception as e:

        print(e)

对图片进行保存

def save_img(url, content):

    root = 'E://jandan/'

    path = root + url.split('/')[-1]

    if not os.path.exists(root):

        os.mkdir(root)

    if not os.path.exists(path):

        with open(path, 'wb') as f:

            f.write(content)

            print('保存成功', url)

定义一个主函数，这里我传入了一个参数i，也就是页面号。另外加了一个睡眠，在每一次对页面进行请求获取内容前停留一段时间，防止频繁爬取被封ip。

def main(i):

    start_url = 'http://jandan.net/ooxx/page-{}#comments'.format(i)

    time.sleep(random.random() * random.randint(1, 10))

    html = get_page_html(start_url)

    for result in get_real_img(html):

        url_split = result.decode('utf-8').split('/')

        real_img_url = 'http://{}/{}/{}'.format(url_split[-3], 'large', url_split[-1])

        get_img_content(real_img_url)

最后写一个程序入口：

if __name__ == '__main__':

    start_page = 1

    end_page = 47

    pool = Pool()

    pool.map(main, [i for i in range(start_page, end_page + 1)])

最后的最后我们看一下成果：

好了，关于煎蛋的话题就到这里。完整代码可以点击查看

python3爬虫爬取煎蛋网妹纸图片（下篇）2018.6.25有效的更多相关文章

python3爬虫爬取煎蛋网妹纸图片（上篇）
其实之前实现过这个功能,是使用selenium模拟浏览器页面点击来完成的,但是效率实际上相对来说较低.本次以解密参数来完成爬取的过程. 首先打开煎蛋网http://jandan.net/ooxx,查看 ...
python3爬虫.4.下载煎蛋网妹子图
开始我学习爬虫的目标 ----> 煎蛋网通过设置User-Agent获取网页,发现本该是图片链接的地方被一个js函数代替了于是全局搜索到该函数 function jandan_load_im ...
python爬虫–爬取煎蛋网妹子图片
前几天刚学了python网络编程,书里没什么实践项目,只好到网上找点东西做. 一直对爬虫很好奇,所以不妨从爬虫先入手吧. Python版本:3.6 这是我看的教程:Python - Jack -Cui ...
Python 爬虫爬取煎蛋网图片
今天, 试着爬取了煎蛋网的图片. 用到的包: urllib.request os 分别使用几个函数,来控制下载的图片的页数,获取图片的网页,获取网页页数以及保存图片到本地.过程简单清晰明了直接上源代 ...
python爬虫爬取煎蛋网妹子图片
import urllib.request import os def url_open(url): req = urllib.request.Request(url) req.add_header( ...
Python Scrapy 爬取煎蛋网妹子图实例（一）
前面介绍了爬虫框架的一个实例,那个比较简单,这里在介绍一个实例爬取煎蛋网妹子图,遗憾的是上周煎蛋网还有妹子图了,但是这周妹子图变成了随手拍, 不过没关系,我们爬图的目的是为了加强实战应用,管 ...
selenium爬取煎蛋网
selenium爬取煎蛋网直接上代码 from selenium import webdriver from selenium.webdriver.support.ui import WebDriv ...
爬虫实例——爬取煎蛋网OOXX频道（反反爬虫——伪装成浏览器）
煎蛋网在反爬虫方面做了不少工作,无法通过正常的方式爬取,比如用下面这段代码爬取无法得到我们想要的源代码. import requests url = 'http://jandan.net/ooxx' ...
scrapy从安装到爬取煎蛋网图片
下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/pip install wheelpip install lxmlpip install pyopens ...

随机推荐

[CF1076E]Vasya and a Tree
题目大意:给定一棵以$1$为根的树,$m$次操作,第$i$次为对以$v_i$为根的深度小于等于$d_i$的子树的所有节点权值加$x_i$.最后输出每个节点的值题解:可以把操作离线,每次开始遍历到一个 ...
hdu 6203 ping ping ping(LCA+树状数组)
hdu 6203 ping ping ping(LCA+树状数组) 题意:给一棵树,有m条路径,问至少删除多少个点使得这些路径都不连通 $1 <= n <= 1e4$ \(1 < ...
Super Moban
HAO BAN ZI 包括求解,判断无解,求自由变元个数以及标记不确定的变元.来源:http://blog.csdn.net/keshuqi/article/details/51921615 #inc ...
watch用法小记
By francis_hao Jun 30,2017 watch:周期性的执行一个一个程序,并全屏显示输出概述 watch [options] command 描述 watch重复的运 ...
Expect使用小记
By francis_hao May 31,2017 本文翻译了部分Expect的man手册,只选取了个人常用的功能,因此并不完善. Expect是一个可以和交互式程序对话的程序概述 ...
codeforces 110E Lucky Tree
传送门:https://codeforces.com/contest/110/problem/E 题意:给你一颗树,节点与节点之间的边有一个边权,定义只由4和7组成的数字是幸运数字,现在要你求一共有多 ...
zigbee芯片 - JN5169
http://www.nxp.com/products/wireless-connectivity/2.4-ghz-wireless-solutions/support-resources-for-j ...
linux查看操作系统是多少位
有三种方法: 1.echo $HOSTTYPE 2.getconf LONG_BIT,此处不应该是getconf WORD_BIT命令,在64位系统中显示的是32 3.uname -a 出现" ...
转：LVS负载均衡
1.什么是LVS? 首先简单介绍一下LVS (Linux Virtual Server)到底是什么东西,其实它是一种集群(Cluster)技术,采用IP负载均衡技术和基于内容请求分发技术.调度器具 ...
最大流算法 ISAP 模板和 Dinic模板
ISAP // UVa11248 Frequency Hopping:使用ISAP算法,加优化 // Rujia Liu struct Edge { int from, to, cap, flow; ...

python3爬虫爬取煎蛋网妹纸图片（下篇）2018.6.25有效

python3爬虫爬取煎蛋网妹纸图片（下篇）2018.6.25有效的更多相关文章

随机推荐

热门专题