Spider-three
一、selenium
from selenium import webdriver
driver = webdriver.Chrome() # 创建一个chrome浏览器控制对象
#driver = webdriver.PhantomJS() # 创建一个phantomjs无界面浏览器
driver.get("http://www.baidu.com/") # 使用浏览器发送请求
html = driver.page_source # 获取网页的源代码(已经渲染完成的源代码)
driver.save_screenshot("test.png") # 将网页保存为图片
driver.quit() # 关闭浏览器
html_obj = etree.HTML(html)
# 32 位: 最大的内存寻址范围是 2 的 32次方
# 64 位: 最大的内存寻址范围是 2 的 64次方
ChromeDriver的作用是:可以调用电脑上的真实Chrome浏览器。
Chrome默认是有界面的浏览器,所以支持复杂的鼠标和键盘事件(比PhantomJS更方便)
Chrome也支持无界面(headless)模式:
from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument("--headless")
# 无界面模式(更节约资源)
driver = webdriver.Chrome(chrome_options=options)
# 有界面模式(支持复杂的鼠标键盘事件)
driver = webdriver.Chrome()
# 获取渲染后的网页源码,可以通过xpath提取数据
html = driver.page_source
Python第三方模块安装方式:
1. 在线安装: pip install xxxx
2. 离线包安装: pip install xxxx_1.23.whl
3. 源码安装: python setup.py install
第三方库fake_useragnet 随机生成User-Angent : "https://pypi.org/project/fake-useragent/"
注意: 第一次随机生成浏览器user_agent信息时, 如果出现报错, 是因为第一次获取时是从缓存中获取的, 但第一次获取没有缓存, 第一次生成时需要修改参数: verify_ssl=False 之后就可不用修改
二、网站反爬顾忌: 误伤真实用户
爬虫爬取数据: 爬虫道德(尽量降低对方服务器负载,也可以保护自身)
反爬手段:
通过User-Agent来反爬, 使用faker模块
通过Referer来反爬, 在请求时添加Referer
通过Cookie来反爬, 携带cookie发送请求
通过js加密请求参数来反爬, python重写js代码的功能、或执行js代码拿到结果
通过行为验证来反爬, 使用打码平台或深度学习的方式破解验证码
通过ip地址来反爬, IP代理池、网上获取免费的代理ip
三、验证码的三种解决办法:
1. 手动打码:将验证码图片下载下来,手动打开并输入正确的验证码,提交请求参数。
2. OCR(光学字符识别系统):读取图片上的文字,并返回一个字符串(识别会有精确度问题)
# Google处理的 Tesseract OCR
3. 打码平台:将验证码图片上传给打码平台处理,打码平台返回验证结果(收费)
Python解释器(CPython解释器)拥有小整数对象池 : -5 ~ 256 之间 如果值相同则id相同, 比如终端执行python文件
IDE中的解释器做了优化处理,但凡是值一致,内存地址就一样
四、案例: 斗鱼直播爬取所有主播信息
"https://www.douyu.com/directory/all"
# 定位到 所有主播的大项
ul_element = xpath("//ul[@class='layout-Cover-list']")[1]
# 提取所有主播的每一个主播信息,并返回列表(一页120个)
div_list = ul_element.xpath('.//div[@class="DyListCover-content"]')
for div in div_list:
category_name = div.xpath(".//span[@class='DyListCover-zone']")[0]
room_name = div.xpath('.//h3[@class="DyListCover-intro"]')[0]
people_number = xpath('.//span[@class="DyListCover-hot"]')[0]
directory_name = xpath('.//h2[@class="DyListCover-user"]')[0]
五、案例: 人人网登陆
1. 发送GET请求: http://activity.renren.com/livecell/rKey
n = json.loads(response.content)['data']
2. 提供账户名和密码
phoneNum: mr_mao_hacker@163.com
password: ALARMCHIME
3. 执行js:
三个js文件: Bigint.js 、RSA.js 、Barrett.js
一段js代码:
'''
t.password = t.password.split("").reverse().join(""), setMaxDigits(130);
var o = new RSAKeyPair(n.e,"",n.n), r = encryptedString(o, t.password);
t.password = r, t.rKey = n.rkey'''
4. 提取js执行结果,获取 password 和 rkey 登录参数:
phoneNum: mr_mao_hacker@163.com
password: 83ac1c99378609e178cab3ece815d36c12b5ca094300333e83ea5436b6109fb2
c1: 0
rKey: 56c61d35789ce0326162a224b59725f3
5. 发送登录的POST请求: http://activity.renren.com/livecell/ajax/clog
六、 其他
python 强类型 动态 解释型语言
弱类型 静态 编译型语言
js : "hello" + 123 --> 弱类型: 字符串和整型可相加
动态:程序在运行时确定数据类型,创建变量不需要声明类型
静态:程序在运行前确定数据类型,创建变量必须声明类型
解释型语言: 程序执行时,通过解释器按行执行代码,实现不会检查整个代码的BUG,只有运行时才检查代码BUG
编译型语言: 程序执行前,先通过编译器生成 可执行文件(机器码文件),在编译过程中检查代码BUG,如果有BUG编译失败,如果编译成功,运行可执行文件即可。
运行速度:
4. 解释型语言(Python、Ruby、JS)
3. 编译型语言(C++、 Java、 C#)
2. C语言 代码映射汇编
1. 汇编代码 可以操作机器码,并通过助记词编写代码
0. 机器码 010101011100
Python自带的模块: /usr/lib/pythonx.x/
Python第三方的模块: /usr/local/lib/pythonx.x/site-packages/
/dist-packages/
Spider-three的更多相关文章
- spider RPC入门指南
本部分将介绍使用spider RPC开发分布式应用的客户端和服务端. spider RPC中间件基于J2SE 8开发,因此需要确保服务器上安装了JDK 8及以上版本,不依赖于任何额外需要独立安装和配置 ...
- Scrapy:为spider指定pipeline
当一个Scrapy项目中有多个spider去爬取多个网站时,往往需要多个pipeline,这时就需要为每个spider指定其对应的pipeline. [通过程序来运行spider],可以通过修改配置s ...
- spider RPC过滤器
spider支持在请求执行前或完成后进行特殊处理,比如安全性检查.敏感字段混淆等等.为此,spider提供了BeforeFilter和AfterFilter.其执行位置如下图所示: 流水线插件配置在s ...
- spider RPC插件化体系
为了满足灵活扩展的需要,spider支持灵活的自定义插件扩展,从功能上来说,插件和过滤器的差别在于过滤器不会阻止请求的执行同时对于主程序不会有API上的影响(比如servlet 过滤器和监听器)(最多 ...
- spider RPC管理接口
为了在独立管理模式下尽可能的容易运行时排查问题,spider中间件提供了一系列restful api用于动态管理当前节点的路由,下游节点等.目前支持的RESTFUL API如下所示: 功能 服务号 R ...
- spider RPC高级特性
多租户 spider原生支持多租户部署,spider报文头对外开放了机构号.系统号两个属性用于支持多租户场景下的路由. 多租户场景下的路由可以支持下述几种模式: n 系统号: n 系统号+服务号( ...
- spider RPC安全性
spider提供了多重安全保障机制,目前主要支持接入握手校验,报文完整性校验,报文加密,报文长度检查四种机制. 接入认证 spider使用两次握手校验,其握手流程如下: 签名AES加密的方式实现. l ...
- spider RPC开发指南
协议与兼容性 spider使用java语言开发,使用Spring作为IoC容器,采用TCP/IP协议,在此基础上,结合SaaS系统模式的特性进行针对性和重点设计,以更加灵活和高效的满足多租户系统.高可 ...
- spider 配置文件参考
spider有一个配置文件spider.xml,为xml格式,spider.xml采用DTD进行管理,用于管理spider的所有特性.路由.高可用等. 配置文件支持三种不同的方式进行指定: 1. 通过 ...
- spider RPC性能测试报告
测试环境部署结构 测试用例 类 别 说明 请求报文 194字节({"systemId":"PL","appVersion":"qq ...
随机推荐
- ubuntu18.04LTS设置静态IP
ubuntu18.04LTS设置静态IP 因为Ubuntu18.04采用的是netplan来管理network.所以在/etc/netplan/目录下有一个以yaml结尾的文件.比如01-networ ...
- 用CSS解决一个让人头疼的问题
需求:下面的文字内容分别都写在一个a标签里,现在需要获取到每一行最后一个a标签的竖线,并删除 我首先想到的是用CSS3新增选择器—— :nth-child()来解决,比如 :nth-child(3n ...
- 简单读!spring-mvc源码之穿越http请求
相信spring-mvc这种被玩坏了的架构理念,大家都烂熟于胸了,不过还是想来扒一扒他的细节. 一个http请求,怎么样被 spring 接收,又怎样做出响应呢? 一般地,我们会配置一个 web.xm ...
- Web发展简史(精编故事版,贤来给你讲故事)
Web发展简史 一. Web发展简史之隔壁老王的故事 有一个人叫隔壁老王,老王有一个爱好就是爱看电影.有一天,这个隔壁老王想看一部电影,可是电脑里面存储的电影太多了,他费了老大劲才从里面找到,觉得很不 ...
- 【MySQL】当前读、快照读、MVCC
当前读: select...lock in share mode (共享读锁) select...for update update , delete , insert 当前读, 读取的是最新版本, ...
- 神经网络架构pytorch-MSELoss损失函数
MSELoss损失函数中文名字就是:均方损失函数,公式如下所示: 这里 loss, x, y 的维度是一样的,可以是向量或者矩阵,i 是下标. 很多的 loss 函数都有 size_average 和 ...
- spring boot整合 springmvc+mybatis
需要以下依赖 <dependencies> <dependency> <groupId>org.springframework.boot</groupId&g ...
- JavaScript之Promise学习笔记
一直想知道Promise到底是怎么实现的,网上一搜几十篇文章,看的一脸蒙蔽.最后算是找到几个讲的真心很详细明了的.看了一份源码看了很久很久……最后找大佬问了几处看不懂的地方,大佬只看了十几分钟就看懂了 ...
- vue android低版本 白屏问题 你是不是用了Object.assign ??
问题描述 在部分比较低版本的手机中,发现apk安装后白屏,但是大部分手机都能安装. 本人在使用android4.4时候,也是安装后打开白屏. 原因: 代码写法不兼容 this.user = Objec ...
- Hadoop-HDFS
HDFS - 写文件 1.客户端将文件写入本地磁盘的N#x4E34;时文件中 2.当临时文件大小达到一个block大小时,HDFS client通知NameNode,申请写入文件 3.NameNode ...