Spider_基础总结6--动态网页抓取--selenium

# 有些网站使用 ‘检查元素’也不能够好使，它们会对地址进行加密，此时使用Selenium 调用浏览器渲染引擎可以模拟用户的操作，完成抓取：

# 注：selenium既可以抓取静态网页也可以抓取动态网页。

# selenium的安装及 webdriver的安装见之前发的selenium专题博客。

# 首先补充点 CSS selector的知识：https://blog.csdn.net/hou_angela/article/details/80519718

from selenium import webdriver

browser = webdriver.Firefox(executable_path = r'C:\Users\12078\Desktop\geckodriver-v0.26.0-win64\geckodriver.exe')

browser.get("http://www.santostang.com/2018/07/04/hello-world/")

browser.maximize_window()

browser.page_source  # 获取网页源代码

# 当有 frame 存在时：

from selenium import webdriver

browser = webdriver.Firefox(executable_path = r'C:\Users\12078\Desktop\geckodriver-v0.26.0-win64\geckodriver.exe')

browser.get("http://www.santostang.com/2018/07/04/hello-world/")

browser.maximize_window()

print("--进入 frame--")

browser.switch_to.frame(browser.find_element_by_css_selector("iframe[title='livere']"))

# content=browser.find_element_by_css_selector('div.reply-content').find_element_by_tag_name('p')

#【根据className属性定位（注意class属性使用.)】

# 或者使用后代选择器：

content=browser.find_element_by_css_selector('div p')

print (content.text)

# 爬取 http://www.santostang.com/2018/07/04/hello-world/ 页面的所有的评论。

# 没有成功，垃圾教程。

from selenium import webdriver

import time

browser = webdriver.Firefox(executable_path = r'C:\Users\12078\Desktop\geckodriver-v0.26.0-win64\geckodriver.exe')

browser.implicitly_wait(20) # 隐性等待，最长等20秒

browser.get("http://www.santostang.com/2018/07/04/hello-world/")

time.sleep(5)

for i in range(0,3):

    # 下滑到页面底部

    browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")

    # 转换iframe，再找到查看更多，点击

    browser.switch_to.frame(browser.find_element_by_css_selector("iframe[title='livere']"))

    load_more = browser.find_element_by_css_selector('button.more-btn')

    load_more.click()

    # 把iframe又转回去

    browser.switch_to.default_content()

    time.sleep(2)

browser.switch_to.frame(browser.find_element_by_css_selector("iframe[title='livere']"))

comments = browser.find_elements_by_css_selector('div.reply-content')

for eachcomment in comments:

    content = eachcomment.find_element_by_tag_name('p')

    print (content.text)

# Selenium的高级操作：

# 有一些方法可以用Selenium控制浏览器的加载的内容，从而加快Selenium的爬取速度。常用的方法有：

# 1. 控制CSS的加载

     因为抓取过程中仅仅抓取页面的内容，CSS样式文件是用来控制页面的外观和元素放置位置的，对内容并没有影响，所以我们可以限制网页加载CSS，从而减少抓取时间

# 2. 控制图片文件的显示

# 3. 禁用 flash

# 4. 控制JavaScript的执行

from selenium import webdriver

# 禁用css

fp = webdriver.FirefoxProfile()

fp.set_preference("permissions.default.stylesheet",2) # 某些firefox只需要这个

fp.set_preference('browser.migration.version', 9001) # 部分需要加上这个

# 禁用图片

fp.set_preference("permissions.default.image",2)

# 禁用flash

fp.set_preference('dom.ipc.plugins.enabled.libflashplayer.so', 'false')

# 禁用js

fp.set_preference("javascript.enabled", False)

browser = webdriver.Firefox(executable_path = r'C:\Users\12078\Desktop\geckodriver-v0.26.0-win64\geckodriver.exe',firefox_profile=fp)

browser.get("http://www.santostang.com/2018/07/04/hello-world/")

browser.maximize_window()

print("end")

Spider_基础总结6--动态网页抓取--selenium的更多相关文章

Spider_基础总结5--动态网页抓取--元素审查--json--字典
# 静态网页在浏览器中展示的内容都在HTML的源码中,但主流网页使用 Javascript时,很多内容不出现在HTML的源代码中,此时仍然使用 # requests+beautifulsoup是不能够 ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
python网络爬虫-动态网页抓取（五）
动态抓取的实例在开始爬虫之前,我们需要了解一下Ajax(异步请求).它的价值在于在与后台进行少量的数据交换就可以使网页实现异步更新. 如果使用Ajax加载的动态网页抓取,有两种方法: 通过浏览器审查 ...
面向初学者的Python爬虫程序教程之动态网页抓取
目的是对所有注释进行爬网. 下面列出了已爬网链接.如果您使用AJAX加载动态网页,则有两种方式对其进行爬网. 分别介绍了两种方法:(如果对代码有任何疑问,请提出改进建议)解析真实地址爬网示例是参考链接 ...
java+phantomjs实现动态网页抓取
1.下载地址:http://phantomjs.org/download.html 2.java代码 public void getHtml(String url) { HTML="&quo ...
Spider--动态网页抓取--审查元素
# 静态网页在浏览器中展示的内容都在HTML的源码中,但主流网页使用 Javascript时,很多内容不出现在HTML的源代码中,我们需要使用动态网页抓取技术. # Ajax: Asynchronou ...
动态网页爬取例子（WebCollector+selenium+phantomjs）
目标:动态网页爬取说明:这里的动态网页指几种可能:1)需要用户交互,如常见的登录操作:2)网页通过JS / AJAX动态生成,如一个html里有<div id="test" ...
Python爬虫之三种网页抓取方法性能比较
下面我们将介绍三种抓取网页数据的方法,首先是正则表达式,然后是流行的 BeautifulSoup 模块,最后是强大的 lxml 模块. 1. 正则表达式如果你对正则表达式还不熟悉,或是需要一些提 ...
Python之HTML的解析（网页抓取一）
http://blog.csdn.net/my2010sam/article/details/14526223 --------------------- 对html的解析是网页抓取的基础,分析抓取的 ...

随机推荐

Springboot应用使用Docker部署
首先准备好springboot应用,然后打包,我这里已经准备好了一个jar包然后上传到服务器,准备一个目录用于存放jar包和Dokerfile文件编写Dokerfile文件我这里写的很简单,就简 ...
php数据显示在html截取字符
<?php echo mb_subsrt($s['content'],0,20,'gbkj')?> gbk也可以是utf8根据实际情况来
【贪心算法】CF Emergency Evacuation
题目大意 vjudge链接给你一个车厢和一些人,这些人都坐在座位上,求这些人全部出去的时间最小值. 样例1输入 5 2 71 11 21 32 32 44 45 2 样例1输出 9 样例2输入 50 ...
canal 整合RabbitMQ
环境如下: canal: 1.15-alpha-1 mysql 5.6.49 rabbitmq 3.7.14 Erlang 21.3 canal 安装和启动见上篇文章 canal快速安装启动但是 ...
openresty上安装waf
一,查看openresty的当前版本 [root@localhost luacache]# /usr/local/openresty/bin/openresty -V nginx version: o ...
kubernetes:用kubeadm管理token(kubernetes 1.18.3)
一,token的用途: 1,token是node节点用来连接master节点的令牌字串, 它和ca证书的hash值是把一台node节点加入到kubernetes集群时要使用的凭证 2, 通过kubea ...
Helium文档13-WebUI自动化-helium快速切换到selenium状态并调用其方法
前言前面说过helium是对Selenium 进行了封装,那么我们如何使用selenium的方法呢,通过下面的介绍,我们能够清楚在helium中能够使用selenium的任何方法入参介绍 def ...
codevs1228 (dfs序+线段树)
1228 苹果树时间限制: 1 s 空间限制: 128000 KB 题目等级 : 钻石 Diamond 题目描述 Description 在卡卡的房子外面,有一棵苹果树.每年的春天,树上总会结 ...
使用PL/SQL Developer 学习pl/sql
1.创建表并且插入一些数据 (这里表名为test): 2. New 一个SQL Window敲下如下代码(--为注释部分): declare --declare:用于plsql中的声明变量,和be ...
log4j日志级别怎么搞
日志的级别之间的大小关系如右所示:ALL < TRACE < DEBUG < INFO < WARN < ERROR < FATAL < OFF Log4j建 ...

Spider_基础总结6--动态网页抓取--selenium

Spider_基础总结6--动态网页抓取--selenium的更多相关文章

随机推荐

热门专题