网页爬虫--python3.6+selenium+BeautifulSoup实现动态网页的数据抓取，适用于对抓取频率不高的情况

说在前面：本文主要介绍如何抓取页面加载后需要通过JS加载的数据和图片

本文是通过python中的selenium（pyhton包） + chrome（谷歌浏览器） + chromedrive（谷歌浏览器驱动）

chrome 和chromdrive建议都下最新版本（参考地址：https://blog.csdn.net/yoyocat915/article/details/80580066）

同样支持无头模式（不需要打开浏览器）

直接上代码：site_url：需要爬取的地址，CHROME_DRIVER_PATH：chromedrive存放地址

 def get_dynamic_html(site_url):

     print('开始加载',site_url,'动态页面')

     chrome_options = webdriver.ChromeOptions()

     #ban sandbox

     chrome_options.add_argument('--no-sandbox')

     chrome_options.add_argument('--disable-dev-shm-usage')

     #use headless，无头模式

     chrome_options.add_argument('--headless')

     chrome_options.add_argument('--disable-gpu')

     chrome_options.add_argument('--ignore-ssl-errors')

     driver = webdriver.Chrome(executable_path=CHROME_DRIVER_PATH,chrome_options=chrome_options)

     #print('dynamic laod web is', site_url)

     driver.set_page_load_timeout(100)

     #driver.set_script_timeout(100)

     try:

         driver.get(site_url)

     except Exception as e:

         #driver.execute_script('window.stop()')  # 超出时间则不加载

         print(e, 'dynamic web load timeout')

     data = driver.page_source

     soup = BeautifulSoup(data, 'html.parser')

     try:

         driver.quit()

     except:

         pass

     return soup

返回的一个soup，这样可以对这个soup进行搜索节点，使用select，search，find等方法找到你想要的节点或者数据

同样如果你想变成文本下载下来，则

 try:

         with open(xxx.html, 'w+', encoding="utf-8") as f:

             #print ('html content is:',content)

             f.write(get_dynamic_html('https://xxx.com').prettify())

             f.close()

     except Exception as e:

         print(e)

下面详细说一下，beautifusoup的搜索

首先如何定位到一个标签

1.使用 find （这位博主详细介绍了https://www.jb51.net/article/109782.htm）

find() 返回匹配第一个：如soup.find(name='ul',attrs={class:'hh'}) 返回第一个 class='hh'的ul
find_all() 返回全部
find_parent() 搜索父标签，返回第一个
find_parents()搜索父标签，返回全部
find_next_sibling()返回下一个同级标签
find_next_siblings()
find_previous_sibling() 返回上一个同级标签
find_previous()返回前面的标签
find_all_previous()
find_next()返回后面的标签
find_all_next()

2.使用select

通过标签名，类名，id 类似 Jquery的选择器如 soup.select('p .link #link1') 选择定位到 <p class='link' id='link1'></p>

通过属性查找，如href ，title，link等属性，如 soup.select('p a[href="http://example.com/elsie"]')

这里匹配到的是最小的 <a href='http://example.com/elsie'></a> 并且他的上级为<p></p>

然后说一下对节点的操作

　　删除节点tag.decompose()

　　在指定位置插入子节点 tag.insert(0,chlid_tag)

最后通过beautifusoup是筛选元素的一种好的方法，下篇我们介绍正则表达式匹配筛选爬虫内容

网页爬虫--python3.6+selenium+BeautifulSoup实现动态网页的数据抓取，适用于对抓取频率不高的情况的更多相关文章

爬虫进阶之Selenium和chromedriver,动态网页（Ajax）数据抓取
什么是Ajax: Ajax(Asynchronouse JavaScript And XML)异步JavaScript和XML.过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新.这意 ...
【音乐爬虫】Python爬虫-selenium+browsermob-proxy 解决动态网页 js渲染问题
1.一般的python爬虫很简单,直接请求对应网址,解析返回的数据即可,但是有很多网站的数据的js动态渲染的,你直接请求是得不到对应的数据的这时就需要其它手段来处理了. 2.以一个例子来说明,整个过 ...
python爬虫之requests+selenium+BeautifulSoup
前言: 环境配置:windows64.python3.4 requests库基本操作: 1.安装:pip install requests 2.功能:使用 requests 发送网络请求,可以实现跟浏 ...
python网页爬虫开发之六-Selenium使用
chromedriver禁用图片,禁用js,切换UA selenium 模拟chrome浏览器,此时就是一个真实的浏览器,一个浏览器该加载的该渲染的它都加载都渲染,所以爬取网页的速度很慢.如果可以不加 ...
python爬取动态网页数据，详解
原理:动态网页,即用js代码实现动态加载数据,就是可以根据用户的行为,自动访问服务器请求数据,重点就是:请求数据,那么怎么用python获取这个数据了? 浏览器请求数据方式:浏览器向服务器的api(例 ...
第三章 Django之动态网页基础（1）
前一章中,我们解释了如何建立一个 Django 项目并启动 Django 开发服务器.当然,那个网站实际并没有干什么有用的事情,它所做的只是显示 It worked!消息.让我们来做些改变.本章将介绍 ...
在python使用selenium获取动态网页信息并用BeautifulSoup进行解析--动态网页爬虫
爬虫抓取数据时有些数据是动态数据,例如是用js动态加载的,使用普通的urllib2 抓取数据是找不到相关数据的,这是爬虫初学者在使用的过程中,最容易发生的情况,明明在浏览器里有相应的信息,但是在pyt ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
爬虫---selenium动态网页数据抓取
动态网页数据抓取什么是AJAX: AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML.过在后台与服务器进行少量数据交换,Ajax 可以使网页 ...

随机推荐

[转]PHP利用PCRE回溯次数限制绕过某些安全限制
这次Code-Breaking Puzzles中我出了一道看似很简单的题目pcrewaf,将其代码简化如下: <?php function is_php($data){ return preg_ ...
C++创建动态库
[C++]创建动态库有很多方法,这个只是其中一种比较简洁的方法. char* __stdcall correction(char* str) char *_result = new char[se ...
异常体系结构 throwable
package com.yhqtv.demo01Exception; /* * 一.异常体系结构 *java.lang.Throwable * ------java.lang.Error:一般不编写针 ...
Java 网络编程 -- 基于TCP实现文件上传
Java TCP 操作基本流程一.创建服务器 1.指定端口, 使用serverSocket创建服务器 2.阻塞式连接 accept 3.操作:输入流输出流 4.释放资源二.创建客户端 1.使用S ...
git flow配置问题
Mac使用 git flow 的时候,当 -m 进行换行有时消息会被截断,怎么解决? 原因: brew 上的 gnu-getopt 这个包未配置好步骤: 1. 在 ~/.gitflow_export ...
tensor求和（ tensor.sum()）
1. torch.sum(input, dim, out=None) 参数说明: input:输入的tensor矩阵. dim:求和的方向.若input为2维tensor矩阵,dim=0,对列求和:d ...
关于小程序中textarea内的字体浮动问题
因为map.canvas.video.textarea 是由客户端创建的原生组件,原生组件的层级是最高的,所以页面中的其他组件无论设置 z-index 为多少,都无法盖在原生组件上. 原生组件暂时还无 ...
Zabbix CPU utilization监控参数
工作中查看Zabbix linux 监控项的时候对linux 监控的cpu使用的各个参数没怎么明白,特意查看了下资料 Zabbix linux模板下的CPU utilization是自带的监控Linu ...
nCOV 数据简要分析 (0326)
nCOV 数据简要分析 (0326) matlabdatacov 简介碰巧看到了数据上传, 正在跑数据的我想着要不拟合一下看看, 然后, 就做了两个小时, 这里做一个简单的记录过程, 后续可能做在线 ...
WebRTC 及点对点网络通信机制
原文请查阅这里,略有删减,本文采用知识共享署名 4.0 国际许可协议共享,BY Troland. 这是 JavaScript 工作原理第十八章. 概述何为 WebRTC ?首先,字面上已经给出了关于 ...

网页爬虫--python3.6+selenium+BeautifulSoup实现动态网页的数据抓取，适用于对抓取频率不高的情况

网页爬虫--python3.6+selenium+BeautifulSoup实现动态网页的数据抓取，适用于对抓取频率不高的情况的更多相关文章

随机推荐

热门专题