一、反爬策略　

　　1、请求头

　　　　——user-agent
　　　　——referer
　　　　——cookie

　　2、访问频率限制

　　　　——代理池
　　　　——再用户访问高峰期进行爬取，冲散日志。12-13 7-10
　　　　——设置等待时长。time.sleep(3)

　　3、ajax异步请求，用接口获取数据

　　4、能一次性获取的数据，绝不发送第二次请求（获取数据的过程中尽量减少请求次数）

　　5、页面内容是js代码

　　　　selenium+phantomjs的组合进行页面内容的获取

二、html页面的技术

　　1、js：页面在请求html的过程中，服务器返回html，同时还会请求js文件。
　　2、jqery：js的库，方便js开发。
　　3、ajax：web的异步请求技术

三、selenium和phantomjs

　　1、什么是selenium？

　　　　selenium一个web自动化测试工具。【但是它本身是不带浏览器】。这个工具其实就是作为一些外部工具驱动来使用的，可以控制一些外部应用来完成自动化测试。

　　2、phantomjs

　　　　是一个内置无界面浏览器引擎。--无界面可以提高程序运行速度。
　　　　因为phantomjs是一个浏览器引擎，所以他最大的功能就是执行页面的js代码。

　　3、安装selenium和phantomjs

　　　　selenium安装：pip install selenium==2.48.0
　　　　phantomjs安装：百度phantomjs镜像--->下载一个Windows版本的————>phantomjs-2.1.1-windows.zip

　　　　可视化的chrome浏览器插件：---chromedriver安装：
　　　　下载：百度：chromedriver镜像

　　　　　　（1）保证chrome是正版。
　　　　　　（2）查看自己chrome的版本号：73.0.3683.86
　　　　　　（3）找一个和自己版本号最接近的版本下载。

　　　　将下载好的exe文件复制到：C:\Anaconda3\Scripts

【python爬虫】动态html的更多相关文章

python爬虫动态html selenium.webdriver
python爬虫:利用selenium.webdriver获取渲染之后的页面代码! 1 首先要下载浏览器驱动: 常用的是chromedriver 和phantomjs chromedirver下载地址 ...
数据之路 - Python爬虫 - 动态页面
一.Ajax数据爬取 1.Ajax介绍 Ajax,全称为Asynchronous JavaScript and XML,即异步的JavaScript和XML. 它不是一门编程语言,而是利用JavaSc ...
Python爬虫动态User-Agent
下载库fake_useragent 然后就可以随心所欲的使用不同UA了
Python爬虫老是被封的解决方法【面试必问】
在爬取的过程中难免发生 ip 被封和 403 错误等等,这都是网站检测出你是爬虫而进行反爬措施,在这里为大家总结一下 Python 爬虫动态 ip 代理防止被封的方法. PS:另外很多人在学习Pyth ...
[Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论
前面几篇文章介绍了Selenium.PhantomJS的基础知识及安装过程,这篇文章是一篇应用.通过Selenium调用Phantomjs获取CSDN下载资源的信息,最重要的是动态获取资源的评论,它是 ...
Python爬虫实战（4）：豆瓣小组话题数据采集—动态网页
1, 引言注释:上一篇<Python爬虫实战(3):安居客房产经纪人信息采集>,访问的网页是静态网页,有朋友模仿那个实战来采集动态加载豆瓣小组的网页,结果不成功.本篇是针对动态网页的数据 ...
Python 爬虫修养-处理动态网页
Python 爬虫修养-处理动态网页本文转自:i春秋社区 0x01 前言在进行爬虫开发的过程中,我们会遇到很多的棘手的问题,当然对于普通的问题比如 UA 等修改的问题,我们并不在讨论范围,既然要将 ...
python爬虫12 | 爸爸，他使坏，用动态的 Json 数据，我要怎么搞？
在前面我们玩了好多静态的 HTML 想必你应该知道怎么去爬这些数据了但还有一些常见的动态数据比如商品的评论数据实时的直播弹幕岛国动作片的评分等等这些数据是会经常发生改变的很多网站就会用 ...
Python动态网页爬虫-----动态网页真实地址破解原理
参考链接:Python动态网页爬虫-----动态网页真实地址破解原理
【音乐爬虫】Python爬虫-selenium+browsermob-proxy 解决动态网页 js渲染问题
1.一般的python爬虫很简单,直接请求对应网址,解析返回的数据即可,但是有很多网站的数据的js动态渲染的,你直接请求是得不到对应的数据的这时就需要其它手段来处理了. 2.以一个例子来说明,整个过 ...

随机推荐

HBase 详解
1.HBase 架构 ============================================ 2. HBase Shell 操作 2.1. 基本操作进入HBase客户端命令行:bi ...
centos7查看防火墙状态、关闭防火墙
查看防火墙状态: firewall-cmd --state 关闭防火墙: systemctl stop firewalld.service 禁止firewall开机启动: systemctl disa ...
Spring security oauth2 password flow
Spring security oauth2 包含以下两个endpoint来实现Authorization Server: AuthorizationEndpoint: 授权请求访问端点, 默认url ...
QQ联合登录（基于Oauth2.0协议）
1. 获取授权码Authorization Code https://graph.qq.com/oauth2.0/authorize?response_type=code&client_id= ...
手撕面试官系列(九)：分布式限流面试专题 Nginx+zookeeper
Nginx专题 (面试题+答案领取方式见侧边栏) 1.请解释一下什么是 Nginx?2.请列举 Nginx 的一些特性.3.请列举 Nginx 和 Apache 之间的不同点4.请解释 Nginx 如 ...
手撕面试官系列（八）：分布式通讯ActiveMQ+RabbitMQ+Kafka面试专题
ActiveMQ专题 (面试题+答案领取方式见主页) 什么是 ActiveMQ? ActiveMQ 服务器宕机怎么办? 丢消息怎么办? 持久化消息非常慢. 消息的不均匀消费. 死信队列. Active ...
Go ---- defer 和 return 执行的先后顺序
Go 中 defer 和 return 执行的先后顺序多个defer的执行顺序为“后进先出”: defer.return.返回值三者的执行逻辑应该是:return最先执行,return负责将结果写入 ...
redis cluster slots数量为何是16384（2的14次方）
Redis 集群并没有使用一致性hash,而是引入了哈希槽的概念. Redis 集群有16384个哈希槽,每个key通过CRC16校验后对16384取模来决定放置哪个槽,集群的每个节点负责一部分has ...
Python进阶(十二)----re模块
Python进阶(十二)----re模块一丶re模块 re模块是python将正则表达式封装之后的一个模块.正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行. #正则表达式: ...
学习笔记之大数据（Big Data）
300 秒带你吃透大数据! https://mp.weixin.qq.com/s/VWaqRig6_JBNYC1NX7NQ-Q 手把手教你入门Hadoop(附代码&资源) https://mp ...

【python爬虫】动态html

一、反爬策略

1、请求头

——user-agent ——referer ——cookie

2、访问频率限制

——代理池 ——再用户访问高峰期进行爬取，冲散日志。12-13 7-10 ——设置等待时长。time.sleep(3)

3、ajax异步请求，用接口获取数据

4、能一次性获取的数据，绝不发送第二次请求（获取数据的过程中尽量减少请求次数）

5、页面内容是js代码

selenium+phantomjs的组合进行页面内容的获取

二、html页面的技术

1、js：页面在请求html的过程中，服务器返回html，同时还会请求js文件。 2、jqery：js的库，方便js开发。 3、ajax：web的异步请求技术

三、selenium和phantomjs

1、什么是selenium？

selenium一个web自动化测试工具。【但是它本身是不带浏览器】。这个工具其实就是作为一些外部工具驱动来使用的，可以控制一些外部应用来完成自动化测试。

2、phantomjs

是一个内置无界面浏览器引擎。--无界面可以提高程序运行速度。 因为phantomjs是一个浏览器引擎，所以他最大的功能就是执行页面的js代码。

3、安装selenium和phantomjs

selenium安装：pip install selenium==2.48.0 phantomjs安装：百度phantomjs镜像--->下载一个Windows版本的————>phantomjs-2.1.1-windows.zip 可视化的chrome浏览器插件：---chromedriver安装： 下载：百度：chromedriver镜像

（1）保证chrome是正版。 （2）查看自己chrome的版本号：73.0.3683.86 （3）找一个和自己版本号最接近的版本下载。

将下载好的exe文件复制到：C:\Anaconda3\Scripts

【python爬虫】动态html的更多相关文章

随机推荐

热门专题

一、反爬策略　

　　1、请求头

　　　　——user-agent
　　　　——referer
　　　　——cookie

　　2、访问频率限制

　　　　——代理池
　　　　——再用户访问高峰期进行爬取，冲散日志。12-13 7-10
　　　　——设置等待时长。time.sleep(3)

　　3、ajax异步请求，用接口获取数据

　　4、能一次性获取的数据，绝不发送第二次请求（获取数据的过程中尽量减少请求次数）

　　5、页面内容是js代码

　　　　selenium+phantomjs的组合进行页面内容的获取

　　1、js：页面在请求html的过程中，服务器返回html，同时还会请求js文件。
　　2、jqery：js的库，方便js开发。
　　3、ajax：web的异步请求技术

　　1、什么是selenium？

　　　　selenium一个web自动化测试工具。【但是它本身是不带浏览器】。这个工具其实就是作为一些外部工具驱动来使用的，可以控制一些外部应用来完成自动化测试。

　　2、phantomjs

　　　　是一个内置无界面浏览器引擎。--无界面可以提高程序运行速度。
　　　　因为phantomjs是一个浏览器引擎，所以他最大的功能就是执行页面的js代码。

　　3、安装selenium和phantomjs

　　　　　　（1）保证chrome是正版。
　　　　　　（2）查看自己chrome的版本号：73.0.3683.86
　　　　　　（3）找一个和自己版本号最接近的版本下载。

　　　　将下载好的exe文件复制到：C:\Anaconda3\Scripts