爬虫扣js代码遇到this怎么办

2024-10-21

理解JavaScript中的this关键字

JavaScript中this关键字理解在爬虫的过程中遇到了前端的js代码,对于this关键字理解的不是很清楚,所以写下这篇笔记,不足之处,希望得以改之. this的指向在函数定义的时候无法确定,只有在函数执行的时候确定this的指向这句话其实有部分干扰性,具体最后在进行总结this关键字的理解 demo01 function printName(){ var userName = "追梦者"; console.log(this.userName); // undefined co

python爬虫执行js代码-execjs

一.安装模块 pip install PyExecJS execjs会自动使用当前电脑上的运行时环境(建议用nodejs,与Phantomjs) 二.简单的使用 import execjs js_obj = execjs.compile('js字符串') js_obj.call('js字符串中方法',参数) 三.js字符串中模拟浏览器环境即导入document与window对象一.安装依赖 npm install jsdom 二.导入包 js_obj = execjs.compile('js

笔记-爬虫-js代码解析

笔记-爬虫-js代码解析 1. js代码解析 1.1. 前言在爬取网站时经常会有js生成关键信息,而且js代码是混淆过的. 以瓜子二手车为例,直接请求https://www.guazi.com/bj/buy/会返回一个203状态大小为5324的包,核心是js代码. 它负责生成cookie及跳转,想要初始cookie,就需要解决它或绕过它. <!DOCTYPE html> <html lang="en"> <head> <met

爬虫必备：Python 执行 JS 代码 —— PyExecJS、PyV8、Js2Py

在使用爬虫中,经常会遇到网页请求数据是经过 JS 处理的,特别是模拟登录时可能有加密请求.而目前绝大部分前端 JS 代码都是经过混淆的,可读性极低,想理解代码逻辑需要花费大量时间.这时不要着急使用 Selenium 暴力解决,毕竟 Selenium 严重拖慢爬虫效率,我们可以尝试使用一些第三方库,来直接执行前端 JS 代码得到处理过后的结果. PyExecJS 这个库主要是将 JS 代码运行在本地的 JS 环境中,优点是我们有多种 JS 环境的选择,官方推荐了 PyV8.Node.js.Phan

兄弟，你爬虫基础这么好，需要研究js逆向了，一起吧（有完整JS代码）

这几天的确有空了,看更新多快,专门研究了一下几个网站登录中密码加密方法,比起滑块验证码来说都相对简单,适合新手js逆向入门,大家可以自己试一下,试不出来了再参考我的js代码.篇幅有限,完整的js代码在这里:从今天开始种树前戏今天要碰的是汽车之家,关于这个网站网上大多都再研究其字体反爬,如果想研究字体反爬的话直接搜一下就有很多. 今天主要是研究汽车之家在登录时的password加密方法,并通过python调用js的方式运行出加密结果. 开始老规矩,打开登录页面,长下面这样,与大多网站一样的布

爬虫之python3用execjs执行JS代码

JS运行环境 Node.js 是Javascript语言服务器端运行环境安装和配置:https://www.runoob.com/nodejs/nodejs-install-setup.html 测试运行测试运行JavaScript程序微软windows操作系统:附件-命令提示符需进入到js程序的目录下,node命令+js文件名运行程序调用方法 JS文件 // 函数 function getnow(){ var timestamp=new Date().getTime(); retur

浅谈网络爬虫爬js动态加载网页（二）

没错,最后我还是使用了Selenium,去实现上一篇我所说的问题,别的没有试,只试了一下firefox的引擎,总体效果对我来说还是可以接受的. 继续昨天的话题,既然要实现上篇所说的问题,那么就需要一个可以执行js代码的框架.我首先选择的是htmlunit,先简单介绍一下htmlunit.下面一段摘自网络. htmlunit 是一款开源的 java 页面分析工具,启动 htmlunit 之后,底层会启动一个无界面浏览器,用户可以指定浏览器类型:firefox.ie 等,如果不指定,默认采用 INT

一行js代码识别Selenium+Webdriver及其应对方案

有不少朋友在开发爬虫的过程中喜欢使用Selenium + Chromedriver,以为这样就能做到不被网站的反爬虫机制发现. 先不说淘宝这种基于用户行为的反爬虫策略,仅仅是一个普通的小网站,使用一行Javascript代码,就能轻轻松松识别你是否使用了Selenium + Chromedriver模拟浏览器. 我们来看一个例子. 使用下面这一段代码启动Chrome窗口: from selenium.webdriver import Chrome driver = Chrome() 现在,在这个

爬虫破解js加密（一）有道词典js加密参数 sign破解

在爬虫过程中,经常给服务器造成压力(比如耗尽CPU,内存,带宽等),为了减少不必要的访问(比如爬虫),网页开发者就发明了反爬虫技术. 常见的反爬虫技术有封ip,user_agent,字体库,js加密,验证码(字符验证码,滑动验证码,点触式验证码等).所谓魔高一尺道高一丈.有反爬虫,就有反反爬虫技术.本文重要讲js加密的破解方法. js加密一般是在请求头或者请求参数加入加密有的字段.爬虫开发者不知道加密的方法,就能够抵挡一些低级爬虫工程师.但是js加密函数或者过程一定是在浏览器完成, 也就是一定会

当爬虫遇到js加密

当爬虫遇到js加密我们在做python爬虫的时候经常会遇到许多的反爬措施,js加密就是其中一种. 破解js加密的方法也有很多种: 1.直接驱动浏览器抓取数据,无视js加密. 2.找到本地加密的js代码,使用python的相关库直接运行js代码. 3.找到本地加密的js代码,理清加密逻辑,然后用python代码来模仿js代码的流程,生成我们想要的加密的数据. 这里我们简单介绍一下第三种,也是最难的一种. 目标网站:http://tool.liumingye.cn/music/?type=qq&n

Python爬虫—破解JS加密的Cookie

前言在GitHub上维护了一个代理池的项目,代理来源是抓取一些免费的代理发布网站.上午有个小哥告诉我说有个代理抓取接口不能用了,返回状态521.抱着帮人解决问题的心态去跑了一遍代码.发现果真是这样. 通过Fiddler抓包比较,基本可以确定是JavaScript生成加密Cookie导致原来的请求返回521. 发现问题打开Fiddler软件,用浏览器打开目标站点(http://www.kuaidaili.com/proxylist/2/) .可以发现浏览器对这个页面加载了两次,第一次返回521

selenium常用操作，查找元素，操作Cookie，获取截图，获取窗口信息，切换，执行js代码

目录: 1. 常用操作 2. 查找元素 3. 操作Cookie 4. 获取截图 5. 获取窗口信息 6. 切换 7. 执行JS代码简介 selenium.webdriver.remote.webdriver.WebDriver 这个类其实是所有其他Webdriver的父类, 例如Chrome Webdriver,Firefox Webdriver都是继承自这个类.这个类中实现了每个Webdriver间相通的方法. 常用操作 - get(url) 在当前浏览器会话中访问传入的url地址 driv

浅谈网络爬虫爬js动态加载网页（一）

由于别的项目组在做舆情的预言项目,我手头正好没有什么项目,突然心血来潮想研究一下爬虫.分析的简单原型.网上查查这方面的资料还真是多,眼睛都看花了.搜了搜对于我这种新手来说,想做一个简单的爬虫程序,所以HttpClient + jsoup是一个不错的选择.前者用来管理请求,后者用来解析页面,主要是后者的select语法很像jquery,对于用js的我来说方便太多了. 昨天和他们聊天的时候,他们选用了几个著名的开源框架使用,聊着聊着就发现原来他们目前还没有办法抓取动态的网页,尤其是几个重要的数字,例

python使用execjs执行含有document、window等对象的js代码，使用jsdom解决

当我们分析爬虫时,有时候会遇到一些加密参数,这个时候就需要我们逆向分析js python执行js有一些第三方库 https://www.jianshu.com/p/2da6f6ad01f0 因为我用的Python3,所以没用PyV8(安装网上的方法,也没有安装好,可能我太笨了 - -! 如果有会的麻烦指点一下) 我用的比较多的就是js2py和execjs 有一次在分析js时,我已经找到了对应的加密方法,在浏览器上运行时,直接拿到了结果,开心的一匹然我把js代码复制下来,在Python里通过js

JS代码静态分析及挖掘

JavaScript 已经成为现代 Web 浏览器开发中最普遍的技术之一.使用客户端 JavaScript 框架(如 AngularJS,ReactJS 和 Vue.js)构建的应用程序已向前端输送了大量功能和逻辑. 随着客户端功能和逻辑的增加,客户端的攻击面也在逐渐增加. 作为安全测试人员,必须了解这些应用程序的攻击面.对测试来说,了解要查找的信息,查找的位置以及如何查找那些能导致在应用程序中发现潜在安全问题的信息都很重要. 在这篇博文中,我们将介绍如何对客户端 JavaScript 代码进行

爬虫05 /js加密/js逆向、常用抓包工具、移动端数据爬取

爬虫05 /js加密/js逆向.常用抓包工具.移动端数据爬取目录爬虫05 /js加密/js逆向.常用抓包工具.移动端数据爬取 1. js加密.js逆向:案例1 2. js加密.js逆向:案例2 3. 常用的抓包工具 4. 移动端数据的爬取总结: 1. js加密.js逆向:案例1 需求: 将这个网页中的代理ip和端口号进行爬取分析: 爬取的数据是动态加载并且我们进行了抓包工具的全局搜索,没有查找到结果意味着:爬取的数据从服务端请求到的是加密的密文数据页面每10s刷新一次,刷新后发现数

python爬虫:了解JS加密爬取网易云音乐

python爬虫:了解JS加密爬取网易云音乐前言大家好,我是"持之以恒_liu",之所以起这个名字,就是希望我自己无论做什么事,只要一开始选择了,那么就要坚持到底,不管结果如何.接下来,就讲一讲今天的正题了,运用python爬虫爬取网易云音乐,之前小编尝试了爬取QQ音乐.酷狗音乐.酷我音乐,但是觉得爬取网易云音乐是最难的一个.为什么这样讲呢?除了它是post请求之外,就是它的加密了.原本小编早就打算尝试爬取它了,但是苦于对浏览器断点操作一直不知怎么做,现在知道了,并且成功实现爬取网

python爬虫之JS逆向

Python爬虫之JS逆向案例由于在爬取数据时,遇到请求头限制属性为动态生成,现将解决方式整理如下: JS逆向有两种思路: 一种是整理出js文件在Python中直接使用execjs调用js文件(可见我的另一篇文章< python爬虫之企某科技JS逆向>). 一种是根据JS中的逻辑,使用Python重写相应的方法. 本文介绍的是第二种使用Python重写JS的方法需求:爬取某区块链网站https://www.oklink.com/zh-cn/btc/tx-list?limit=20&

python爬虫之JS逆向某易云音乐

Python爬虫之JS逆向采集某易云音乐网站在获取音乐的详情信息时,遇到请求参数全为加密的情况,现解解决方案整理如下: JS逆向有两种思路: 一种是整理出js文件在Python中直接使用execjs调用js文件(可见我的另一篇文章< python爬虫之企某科技JS逆向>). 一种是根据JS中的逻辑,使用Python重写相应的方法.(可见另一篇文章<爬虫之JS逆向>) 本文介绍的也是第一种思路,即从目标网站中提取JS文件,然后由Python中使用execjs调用,得到我们想要的数据

Firebug调试js代码

Firebug功能异常强大,不仅可以调试DOM,CSS,还可以调试JS代码,下面介绍一下调试JS. 1.认识console对象 console对象是Firebug内置的对象,该对象可以在代码中写入,可以在控制面板中写入. 1)有五个方法来显示信息.依次为: 1.console.log(),可以用来取代alert()或document.write() 2.console.info(),一般信息 3.console.debug(),除错信息 4.console.warn(),警告提示 5.conso

浏览器控制台js代码与后台不同步

原因:浏览器会缓存js 如果是将js代码直接通过<script>标签插入jsp页面中则不存在这个问题在加载页面的时候会重新加载js代码如果直接将js代码以文件的形式引入,那么每次在修改之后需要清除浏览器缓存控制台才能更新js代码解决办法:关闭浏览器缓存我用的Google浏览器,这里以关闭chrome缓存功能为例: 1.打开chrome 2.按F12打开开发者工具 3.按F1打开Settings界面 4.找到NetWork类中Disable cache,勾选上即可 5.之后每次修改完js

爬虫扣js代码遇到this怎么办

热门专题