煎蛋网爬虫之JS逆向解析img路径

图片使用js onload事件加载

<p><img src="//img.jandan.net/img/blank.gif" onload="jandan_load_img(this)" /><span class="img-hash">Ly93eDEuc2luYWltZy5jbi9tdzYwMC8wMDd1ejNLN2x5MWZ6NmVub3ExdHhqMzB1MDB1MGFkMC5qcGc=</span></p>

找到soureces 文件中对应的js 方法jandan_load_img

通过debugger js 将Ly93eDEuc2luYWltZy5jbi9tdzYwMC8wMDd1ejNLN2x5MWZ6NmVub3ExdHhqMzB1MDB1MGFkMC5qcGc= 传入函数jdugRtgCtw78dflFjGXBvN6TBHAoKvZ7xu base64_decode得到img路经

再通过正则表达式将img路径中的(/W+)替换为large

爬取代码如下：

import base64

import re

import requests

from concurrent.futures import ThreadPoolExecutor

from random import choice

from lxml import etree

from user_agent_list import USER_AGENTS

headers = {'user-agent': choice(USER_AGENTS)}

def fetch_url(url):

    '''

    :param url: 路径

    :return: html

    '''

    try:

        r = requests.get(url, headers=headers)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        if r.status_code in [200, 201]:

            return r.text

    except Exception as e:

        print(e)

def downloadone(url):

    html = fetch_url(url)

    data = etree.HTML(html)

    img_hash_list = data.xpath('//*[@class="img-hash"]/text()')

    for img_hash in img_hash_list:

        img_path = 'http:' + bytes.decode(base64.b64decode(img_hash))

        img_path = re.sub(r'mw\d+', 'large', img_path)

        img_name = img_path.rsplit('/', 1)[1]

        with open('jiandan/'+img_name, 'wb') as f:

            r = requests.get(img_path)

            f.write(r.content)

def main():

    url_list = []

    for _ in range(1, 44):

        url = 'http://jandan.net/ooxx/page-{}'.format(_)

        url_list.append(url)

    with ThreadPoolExecutor(4) as executor:

       executor.map(downloadone, url_list)

if __name__ == '__main__':

    main()

煎蛋网爬虫之JS逆向解析img路径的更多相关文章

网易云音乐JS逆向解析歌曲链接
Request URL: https://music.163.com/weapi/song/enhance/player/url?csrf_token= FormData : params: BV ...
Python爬虫入门教程 18-100 煎蛋网XXOO图片抓取
写在前面很高兴我这系列的文章写道第18篇了,今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都 ...
[Python爬虫]煎蛋网OOXX妹子图爬虫（1）——解密图片地址
之前在鱼C论坛的时候,看到很多人都在用Python写爬虫爬煎蛋网的妹子图,当时我也写过,爬了很多的妹子图片.后来煎蛋网把妹子图的网页改进了,对图片的地址进行了加密,所以论坛里面的人经常有人问怎么请求的 ...
python3爬虫.4.下载煎蛋网妹子图
开始我学习爬虫的目标 ----> 煎蛋网通过设置User-Agent获取网页,发现本该是图片链接的地方被一个js函数代替了于是全局搜索到该函数 function jandan_load_im ...
python学习笔记（12）--爬虫下载煎蛋网图片
说明: 1. 这个其实是在下载漫画之前写的,比那个稍微简单点,之前忘放到博客备份了. 2. 不想说啥了,总结放到漫画那个里面吧! import urllib.request import re imp ...
爬虫实例——爬取煎蛋网OOXX频道（反反爬虫——伪装成浏览器）
煎蛋网在反爬虫方面做了不少工作,无法通过正常的方式爬取,比如用下面这段代码爬取无法得到我们想要的源代码. import requests url = 'http://jandan.net/ooxx' ...
python3爬虫爬取煎蛋网妹纸图片（上篇）
其实之前实现过这个功能,是使用selenium模拟浏览器页面点击来完成的,但是效率实际上相对来说较低.本次以解密参数来完成爬取的过程. 首先打开煎蛋网http://jandan.net/ooxx,查看 ...
Python 爬虫爬取煎蛋网图片
今天, 试着爬取了煎蛋网的图片. 用到的包: urllib.request os 分别使用几个函数,来控制下载的图片的页数,获取图片的网页,获取网页页数以及保存图片到本地.过程简单清晰明了直接上源代 ...
Python Scrapy 爬取煎蛋网妹子图实例（一）
前面介绍了爬虫框架的一个实例,那个比较简单,这里在介绍一个实例爬取煎蛋网妹子图,遗憾的是上周煎蛋网还有妹子图了,但是这周妹子图变成了随手拍, 不过没关系,我们爬图的目的是为了加强实战应用,管 ...

随机推荐

十七：SQL注入之二次加解密，DNS注入
加解密,二次,DNSlog注入注入原理,演示案例,实际应用. less-21关,base64进行解密 encode加密decode解密 cookie处注入判断加密算法,然后进行注入 less-24 ...
Oracle备份审计表SYS.AUD$和SYS.FGA_LOG$
ORACLE的审计表不可以使用expdp和impdp导出和导入,如果使用,会报如下错误: 需要使用exp和imp进行导出和导出导出语句: exp " '/ as sysdba' " ...
使用gui_upload的总结
今天使用gui_upload函数将文本文件的内容读取到内表.出现了一个问题,总是程序宕掉,出项的提示是 Type conflict when calling a function module. 原来 ...
SAPLink 非常好用的工具
对于SAP LINK,如果你想将一个程序完整的保存到本地,包括程序的自定义屏幕.菜单等等,那么请使用这个工具,它能够将一个程序完整的保存下来,并且移植到另一个SAP系统中,用来左程序的迁移和本地保存备 ...
spring boot 集成 websocket 实现消息主动
来源:https://www.cnblogs.com/leigepython/p/11058902.html pom.xml 1 <?xml version="1.0" en ...
webapi Swagger 配置 services.BuildServiceProvider() 报警 ASP0000 问题处理
问题起源网上的常见配置 Swagger 配置在Startup类的 ConfigureServices 使用 services.BuildServiceProvider() ,其中有段代码如下: v ...
nodejs内网穿透
说明本地服务注册,基于子域名->端口映射.公网测试请开启二级或三级域名泛解析无心跳保活.无多线程并发处理服务器端请求ID基于全局变量,不支持PM2多进程开服务端.(多开请修改uid函数, ...
Ubuntu20.04 安装火狐开发者版本(水狐)步骤
1. 从Mozilla Firefox Developer Edition webpage下载. 2. 将下载的"tar.bz2"文件解压到指定目录, 例如/opt/firefox ...
(07)-Python3之--函数
1.定义函数:实现了某一特定功能. 可以重复使用. 例如: len() 功能:获取长度.input() 功能: 控制台输入print() 功能:输出语法: def 函数名称(参数 ...
Bitter.Core系列六：Bitter ORM NETCORE ORM 全网最粗暴简单易用高性能的 NETCore ORM 之示例 DataTable 模型转换
当我们查询之前,我们先构造一个查询对象的输出DTO.如下图代码: public class TScoreSearchDto { /// <summary> /// 分数 /// </ ...

煎蛋网爬虫之JS逆向解析img路径

煎蛋网爬虫之JS逆向解析img路径的更多相关文章

随机推荐

热门专题