上一篇博客的末尾说到全网代理IP的端口号是经过加密混淆的，而这一篇博客就将告诉你如何破解！如果觉得有用的话，不妨点个推荐哦~

一、全网代理IP的JS混淆

首先进入全网代理IP，打开开发者工具，点击查看端口号，看起来貌似没有什么问题：

如果你已经爬取过这个网站的代理，你就会知道事情并非这么简单。如果没爬过呢？也很简单，点击鼠标右键然后查看网页源代码，搜索”port“，可以找到如下内容：

很明显这不是网页上显示的端口号了，那我们要怎么才能得到真正的端口号呢？

解决办法：

首先需要找到一个JS文件：http://www.goubanjia.com/theme/goubanjia/javascript/pde.js?v=1.0，点开后可以看到如下内容：

这么复杂的JS代码看得人头都大了，不过我们发现这个JS代码是一个eval函数，那我们能不能把它解码一下呢？这时候你需要一个工具--脚本之家在线工具，把这些JS代码复制进去：

然后点击解码：

还是一个eval函数，所以再次解码：

到这一步，已经比最开始的代码简洁多了，但是还易读性还是很差，所以我们需要先格式化一下：

var _$ = [
"\x2e\x70\x6f\x72\x74",
"\x65\x61\x63\x68",
"\x68\x74\x6d\x6c",
"\x69\x6e\x64\x65\x78\x4f\x66",
"\x2a",
"\x61\x74\x74\x72",
"\x63\x6c\x61\x73\x73",
"\x73\x70\x6c\x69\x74",
"\x20",
"",
"\x6c\x65\x6e\x67\x74\x68",
"\x70\x75\x73\x68",
"\x41\x42\x43\x44\x45\x46\x47\x48\x49\x5a",
"\x70\x61\x72\x73\x65\x49\x6e\x74",
"\x6a\x6f\x69\x6e",
""
];
$(function() {
$(_$[0])[_$[1]](function() {
var a = $(this)[_$[2]]();
if (a[_$[3]](_$[4]) != -0x1) {
return;
}
var b = $(this)[_$[5]](_$[6]);
try {
b = b[_$[7]](_$[8])[0x1];
var c = b[_$[7]](_$[9]);
var d = c[_$[10]];
var f = [];
for (var g = 0x0; g < d; g++) {
f[_$[11]](_$[12][_$[3]](c[g]));
}
$(this)[_$[2]](window[_$[13]](f[_$[14]](_$[15])) >> 0x3);
} catch (e) {}
});
});

可以看到有一个列表和一个函数，而这个函数应该就是混淆的函数了，但是这列表里的数据都是十六进制的，还需要解码一下（这一步可以用Python来做）：

_ = ["\x2e\x70\x6f\x72\x74", "\x65\x61\x63\x68", "\x68\x74\x6d\x6c", "\x69\x6e\x64\x65\x78\x4f\x66", "\x2a",
     "\x61\x74\x74\x72", "\x63\x6c\x61\x73\x73", "\x73\x70\x6c\x69\x74", "\x20", "", "\x6c\x65\x6e\x67\x74\x68",
     "\x70\x75\x73\x68", "\x41\x42\x43\x44\x45\x46\x47\x48\x49\x5a", "\x70\x61\x72\x73\x65\x49\x6e\x74",
     "\x6a\x6f\x69\x6e", ""
     ]
_ = [i.encode('utf-8').decode('utf-8') for i in _]
print(_)
# ['.port', 'each', 'html', 'indexOf', '*', 'attr', 'class', 'split', ' ', '', 'length', 'push', 'ABCDEFGHIZ', 'parseInt', 'join', '']

然后把这个列表里的元素添加到上面的JS函数中，可以得到如下结果：

 $(function() {

   $(".port")["each"](function() {

     var a = $(this)["html"]();

     if (a["indexOf"]("*") != -0x1) {

       return;

     }

     var b = $(this)["attr"]("class");

     try {

       b = b["split"](" ")[0x1];

       var c = b["split"]("");

       var d = c["length"];

       var f = [];

       for (var g = 0x0; g < d; g++) {

         f["push"]("ABCDEFGHIZ"["indexOf"](c[g]));

       }

       $(this)["html"](window["parseInt"](f["join"]("")) >> 0x3);

     } catch (e) {}

   });

 });

可以看到这段JS代码就是先找到每个端口节点，然后把端口的class值提取出来，再进行拆分字符串，然后获取每个字母在”ABCDEFGHIZ“中的下标值，并把这些值拼接成字符串，再转为整型数据，最后把这个整型数据向右移3位。比如”GEA“对应的下标组成的字符串是”640“，转为整型数据后向右移3位的结果就是80，也就是真实的端口值了。最后附上用Python解密端口号的代码：

 et = etree.HTML(html)

 port_list = et.xpath('//*[contains(@class,"port")]/@class')

 for port in port_list:

     port = port.split(' ')[1]

     num = ""

     for i in port:

         num += str("ABCDEFGHIZ".index(i))

     print(int(num) >> 3)

二、用图片代替文字

之前就有人评论说有的网站使用图片代替文字以实现反爬虫，然后我这次就找到了一个网站--新蛋网，随意点击一个商品查看一下：

打开开发者工具，然后点击查看价格，想不到价格居然是通过图片来显示的：

解决办法：

我找到两个可以得到价格的办法，一个简单的，一个难一点的。简单的方法是用正则表达式，因为在源码中的其他地方是包含商品的基本信息的，比如名称和价格，所以我们可以使用正则表达式进行匹配，代码如下：

 import re

 import requests

 url = "https://www.newegg.cn/Product/A36-125-E5L.htm?neg_sp=Home-_-A36-125-E5L-_-CountdownV1"

 res = requests.get(url)

 result = re.findall("name:'(.+?)', price:'(.+?)'", res.text)

 print(result)

难一点的方法是把图片下载到本地之后进行识别，由于这个图片的清晰度很高，也没有扭曲或者加入干扰线什么的，所以可以直接使用OCR进行识别。但是用这种方法的话需要安装好Tesseract-OCR，这个工具的安装过程还是比较麻烦的。用这种方法破解的代码如下：

 import requests

 import pytesseract

 from PIL import Image

 from lxml import etree

 url = "https://www.newegg.cn/Product/A36-125-E5L.htm?neg_sp=Home-_-A36-125-E5L-_-CountdownV1"

 res = requests.get(url)

 et = etree.HTML(res.text)

 img_url = et.xpath('//*[@id="priceValue"]/span/strong/img/@src')[0]

 with open('price.png','wb') as f:

      f.write(requests.get(img_url).content)

 pytesseract.pytesseract.tesseract_cmd = 'E:/Python/Tesseract-OCR/tesseract.exe'

 text = pytesseract.image_to_string(Image.open('price.png'))

 print(text)

 # 6999.00

【Python3爬虫】常见反爬虫措施及解决办法（三）的更多相关文章

Python爬虫与反爬虫（7）
[Python基础知识]Python爬虫与反爬虫(7) 很久没有补爬虫了,相信在白蚁二周年庆的活动大厅比赛中遇到了关于反爬虫的问题吧这节我会做个基本分享. 从功能上来讲,爬虫一般分为数据采集,处理, ...
Python爬虫从入门到放弃（二十二）之爬虫与反爬虫大战
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普通用 ...
【Python】爬虫与反爬虫大战
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普通用 ...
Python之爬虫（二十四）爬虫与反爬虫大战
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普通用 ...
python爬虫之反爬虫（随机user-agent，获取代理ip，检测代理ip可用性）
python爬虫之反爬虫(随机user-agent,获取代理ip,检测代理ip可用性) 目录随机User-Agent 获取代理ip 检测代理ip可用性随机User-Agent fake_usera ...
Python爬虫入门教程 65-100 爬虫与反爬虫的修罗场，点评网站，字体反爬之三
爬虫与反爬虫的修罗场哪种平台最吸引爬虫爱好者,当然是社区类的,那里容易产生原生态,高质量的数据啊, 你看微博,知乎,豆瓣爬的不亦乐乎. 评论也是产生内容的好地方生活类点评网站旅游类点评网站音乐 ...
C#爬虫与反爬虫--字体加密篇
爬虫和反爬虫是一条很长的路,遇到过js加密,flash加密.重点信息生成图片.css图片定位.请求头.....等手段:今天我们来聊一聊字体: 那是一个偶然我遇到了这个网站,把价格信息全加密了:浏览器展 ...
C#不用union，而是有更好的方式实现 .net自定义错误页面实现 .net自定义错误页面实现升级篇 .net捕捉全局未处理异常的3种方式一款很不错的FLASH时种插件关于c#中委托使用小结 WEB网站常见受攻击方式及解决办法判断URL是否存在提升高并发量服务器性能解决思路
C#不用union,而是有更好的方式实现用过C/C++的人都知道有个union,特别好用,似乎char数组到short,int,float等的转换无所不能,也确实是能,并且用起来十分方便.那C# ...
【Python3爬虫】常见反爬虫措施及解决办法（二）
这一篇博客,还是接着说那些常见的反爬虫措施以及我们的解决办法.同样的,如果对你有帮助的话,麻烦点一下推荐啦. 一.防盗链这次我遇到的防盗链,除了前面说的Referer防盗链,还有Cookie防盗链和 ...
【Python3爬虫】常见反爬虫措施及解决办法（一）
这一篇博客,是关于反反爬虫的,我会分享一些我遇到的反爬虫的措施,并且会分享我自己的解决办法.如果能对你有什么帮助的话,麻烦点一下推荐啦. 一.UserAgent UserAgent中文名为用户代理,它 ...

随机推荐

使用opencv调用24*24点阵字库和8*16ASCII字库在图片显示文字数字
课程实验:编程读汉字点阵字库,把自己的名字和学号叠加到图片的右下位置. 主要步骤分为三部分第一部分:读取图片(文件读取) 第二部分:读取文字并从字库中提取相应的编码(字库的存储原理) 第三部分:将相 ...
利用webmagic获取天猫评论
引言爬取商品信息爬取商品评论数据清洗 1. 引言现代网页往往其HTML只有基本结构,而数据是通过AJAX或其他方法获取后填充,这样的模式对爬虫有一定阻碍,但是熟练以后获取并不困难,本文以爬取天 ...
Intellij-Idea Maven SSH项目的搭建
添加阿里云镜像在.m2/settings.xml中, <mirror> <id>nexus-aliyun</id> <name>Nexus aliyu ...
app电量测试
一．测试前准备样本A:商家端2.6.4版本为基准样本(即旧版本): 样本B:商家端2.6.5版本(未正式上线,可找RD协助打包): 推荐Android 5.0及以上手机2台或多台(根据RD本次测试需 ...
.NET开发微信小程序-接收微信支付回调数据
获取微信支付传回来的数据 1.MVC控制器 /// <summary> /// 付款返回的数据 /// </summary> /// <returns></r ...
pycharm linux版快捷方式创建
****************************pycharm_linux安装and快捷方式创建******************1.下载好安装包之后解压: tar -xfz 压缩包名 ...
R 网络图 nodes,edges属性计算
前面提到了用R画网络图,免不了要对网络图nodes和edges的特征做一些统计.分享下我的代码: ########## nodes edges的统计########### # ####nodes的度有 ...
Cookie与 Session使用详解
Cookie概念在浏览某些网站时,这些网站会把一些数据存在客户端 , 用于使用网站等跟踪用户,实现用户自定义功能. 是否设置过期时间: 如果不设置过期时间,则表示这个 Cookie生命 ...
VMWare的网络
1.VMWare的网络连接方式区别连接方式宿主机和虚拟机虚拟机对外网的访问外网对虚拟机的访问 Host-Only 可以相互访问不能直接访问不能直接访问 NAT 虚拟机可以访问宿主机可以( ...
new/delete和malloc/free的比较
从C++角度上说,使用new分配堆空间可以调用类的构造函数,而malloc()函数仅仅是一个函数调用,它不会调用构造函数,它所接受的参数是一个unsigned long类型.同样,delete在释放堆 ...

【Python3爬虫】常见反爬虫措施及解决办法（三）

一、全网代理IP的JS混淆

解决办法：

二、用图片代替文字

解决办法：

【Python3爬虫】常见反爬虫措施及解决办法（三）的更多相关文章

随机推荐

热门专题