注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统全国水雨情网。由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取。数据的获取过程跟人手动获取过程类似,所以也不会对服务器造成更大负荷。这是我写的第1个爬虫,初次接触,还请各位多多指教。本文的代码见Selenium获取动态页面数据1.ipynb或Selenium获取动态页面数据1.py

1、准备环境

工欲善其事,必先装好环境,耐心地把下面的环境装好。

  • 建议安装Python3的版本,一般来说越新越好。这是官网下载安装,或者网上其它教程

  • 安装Selenium和其一些必要的包:

    pip install pandas
    pip install bs4
    pip install selenium

    pandas自不必多说,非常强大的数据分析库,网上教程非常丰富bs4是一个比较方便的html页面解析的包,详细的可以自由百度教程,网上有很多,当然也有它的Beautiful Soup官网文档,这是中文的,比较良心。selenium能够用于自动测试我们的网页,模拟我们的浏览器,也很强大,它的说明文档在此

  • 最后我们需要安装浏览器的支持,如果电脑上已安装有Chrome浏览器,则还需下载chromedirver,注意需要安装与浏览器对应的版本,下载完成后,需要将其添加至系统的Path中。也可以安装PhantomJS,这是一个无界面的浏览器,速度更快一些,体积也不大。同样,下载好后,需要将其添加至系统的Path

  • 另外,关于Python的学习环境,建议安装一个Jupyter

2、详细爬取过程

2.1 分析待爬取网页

打开我们的国家地表水水质自动监测实时数据发布系统:http://123.127.175.45:8082/如下图2-1所示,我们可以看到它的数据是动态地在更新,每次只显示了十多条数据,但是这只是一个假象,其实在我们打开页面,加载完成后,所有的数据已经加载过来了,只是没有显示出来,不信我们可以按F12,<li></li>标签下的数据就是加载完成后的数据,共100条数据(有时候也只有99条)。

图2-1 国家地表水水质自动监测实时数据发布系统

2.2 利用Selenium提取数据

(1)打开网页

运行下面代码,会自动弹出Chrome浏览器的窗口;如果用的browser = webdriver.PhantomJS(),则没有窗口出来。浏览器的窗口出来后,可以看到,它加载出我们的页面了。

import datetime
import pandas as pd
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC # 打开chrome浏览器(需提前安装好chromedriver)
browser = webdriver.Chrome()
# browser = webdriver.PhantomJS()
print("正在打开网页...")
browser.get("http://123.127.175.45:8082/")

(2)得到页面源码

网页完成后打开完成后,还需要等待一下它的加载,只有等数据加载完成,我们才能去获取它的HTML页面源码。

print("等待网页响应...")
# 需要等一下,直到页面加载完成
wait = WebDriverWait(browser, 10)
wait.until(EC.presence_of_element_located((By.CLASS_NAME, "grid"))) print("正在获取网页数据...")
soup = BeautifulSoup(browser.page_source, "lxml")
browser.close()

(3)定位数据

通过CSS选择器定位到我们的表头数据和表数据,如下图2-2和图2-3所示

图2-2 CSS选择(.panel-heading)表头

图2-3 CSS选择(.grid)表数据
# 表头和表数据
data_head = soup.select(".panel-heading")[0]
grid_data = soup.select(".grid")[0] # 得到表头数据
data_colhead = data_head.findAll("td")
data_rows = grid_data.findAll("tr") # 据表头生成数据表
water_df = pd.DataFrame(columns=[c.text for c in data_colhead])

我们查看water_df可以得到如下数据表头:

断面名称 测量时间 pH 溶解氧 氨氮 高锰酸盐指数 总有机碳 水质类别 断面属性 站点情况

(4)提取数据

上面我们从表数据中的tr标签获得所有数据行后,将其所有数据提取出来,添加到我们前面定义好的water_df中。

print("提取网页数据中...")
for i, data_row in enumerate(data_rows):
# 以名字为地名和时间标识符,以防止数据重复
water_loc = water_df.iloc[:, 0].values
water_date = water_df.iloc[:, 1].values row_dat = [r.text for r in data_row]
water_df.loc[i] = row_dat

查看我获取的数据前5行,如下表

表2.1 获取的数据表前5行
断面名称 测量时间 pH 溶解氧 氨氮 高锰酸盐指数 总有机碳 水质类别 断面属性 站点情况
0 四川攀枝花龙洞 2019-01-22 12:00 7.98 10.72 0.05 -- -- I 仪器故障
1 四川宜宾凉姜沟 2019-01-22 12:00 7.75 10.77 0.07 2.18 -- II 入长江前 正常
2 云南红河州河口 2019-01-22 12:00 7.41 9.09 0.21 3.4 -- II 中-越出境 仪器故障
3 云南昆明观音山 2019-01-22 12:00 8.51819 8.69207 0.27 7.51 -- IV 湖体 正常
4 云南昆明西苑隧道 2019-01-22 12:02 7.9 8.7 0.24 3.5 -- II 湖体 正常

(5)保存数据

得到数据后,一般要保存我们的数据,pandas给我们提供了非常方便的方法,可以保存为各种常见格式的数据,下面我们将其保存为.csv文件格式,由于这里面有中文编码,所以另外还保存了一个GB18030编码格式的文件,这样直接用excel打开,不会出现乱码。平时如果处理数据,还里建议用下面的utf-8编码的文件。

data_str = datetime.datetime.now().strftime('%Y_%m_%d')

water_df.to_csv("data_water_%s_ch.csv" % (data_str),
index=None, encoding="GB18030") water_df.to_csv("data_water_%s.csv" % (data_str), index=None)
print("数据提取完成!!")

数据提取完成后,可以看到下面2个文件:data_water_2019_01_22.csv、data_water_2019_01_22_ch.csv,直接用excel打开第2个文件,可以看到如下图2-4。

图2-4 最终获取的数据

总结

这次,我们主要用selenium模型浏览器得到动态加载的HTML页面源码,然后利用BeautifulSoup解析其中的数据,最后利用Pandas处理我们数据。

这也是我第1次写爬虫,还请各位不吝赐教。此次数据的获取还比较简单,下一篇《Python+Selenium爬取动态加载页面(2)》再来写一下要点击按钮的,稍微复杂一点点。

Python+Selenium爬取动态加载页面(1)的更多相关文章

  1. Python+Selenium爬取动态加载页面(2)

    注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...

  2. Scrapy 框架 使用 selenium 爬取动态加载内容

    使用 selenium 爬取动态加载内容 开启中间件 DOWNLOADER_MIDDLEWARES = { 'wangyiPro.middlewares.WangyiproDownloaderMidd ...

  3. 爬虫再探实战(三)———爬取动态加载页面——selenium

    自学python爬虫也快半年了,在目前看来,我面临着三个待解决的爬虫技术方面的问题:动态加载,多线程并发抓取,模拟登陆.目前正在不断学习相关知识.下面简单写一下用selenium处理动态加载页面相关的 ...

  4. 爬虫再探实战(四)———爬取动态加载页面——请求json

    还是上次的那个网站,就是它.现在尝试用另一种办法——直接请求json文件,来获取要抓取的信息. 第一步,检查元素,看图如下: 过滤出JS文件,并找出包含要抓取信息的js文件,之后就是构造request ...

  5. Python爬虫爬取异步加载的数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:努力努力再努力 爬取qq音乐歌手数据接口数据 https://y.qq ...

  6. C#使用phantomjs,爬取AJAX加载完成之后的页面

    1.开发思路:入参根据apiSetting配置文件,分配静态文件存储地址,可实现不同站点的静态页生成功能.静态页生成功能使用无头浏览器生成,生成之后的字符串进行正则替换为固定地址,实现本地正常访问. ...

  7. 转:从pickle看python类成员的动态加载和类的定位

      pickle是Python轻便的对象序列化工具.使用pickle可以方便地把python对象写入文件对象中,或者像soap那样在socket间传送.     按照python的一贯作风,类的成员在 ...

  8. ExtJS 4.1 TabPanel动态加载页面并执行脚本【转】

    ExtJS 4.1 TabPanel动态加载页面并执行脚本 按照官方示例,可以动态加载页面,可是脚本不执行,于是查SDK.google,发现scripts需要设置为true,于是设置该属性,整个代码如 ...

  9. div动态加载页面

    div动态加载页面 /* /// method 1 var url="<%=basePath%>/qne.do?p=pessegerCountSet"; $.post( ...

随机推荐

  1. 【Zookeeper】Zookeeper集群单节点提供服务

    以下只在特殊情况下使用,不要用在生产环境. 一.问题背景 公司的产品使用Zookeeper做为集群支持,但是客户在验收的时候提出了一个很为难人的要求,那就是3台集群服务,停止2台以后,还要求我们的应用 ...

  2. Flex自动回收导致监听不到ModuleEvent.READY事件

    Flex中可以动态载入模块,以达到延迟加载,减小主程序体积的效果.通常可以使用如下代码: var iminfo:IModuleInfo = ModuleManager.getModule(" ...

  3. springboot 1.3.5升级1.5.9后 默认使用tomcat 8.5版本 get请求报400 异常信息为 The valid characters are defined in RFC 7230 and RFC 3986

    1.springboot 1.3.5升级1.5.9后 默认使用tomcat 8.5版本而之前用的是tomcat7    get请求报400 异常信息为 The valid characters are ...

  4. 【python】python中的json、字典dict

    定义 python中,json和dict非常类似,都是key-value的形式,而且json.dict也可以非常方便的通过dumps.loads互转.既然都是key-value格式,为啥还需要进行格式 ...

  5. Python基础一数据类型之数字类型

    摘要: python基础一中提到了数据类型,这里主要讲解的是数字类型. 数字类型: 1,整型 2,长整型 3,浮点型 4,复数型 1,整型(int) 定义a = 1 通过type函数查看数据类型,整型 ...

  6. .NET笔试题集(四)

    转载于:http://www.cnblogs.com/ForEvErNoME/archive/2012/09/10/2678727.html 1.请你简单的说明数据库建立索引的优缺点 使用索引可以加快 ...

  7. 简单了解Tomcat与OSGi的类加载器架构

    前言: 本次博客主要是对Tomcat与OSGi的类加载器架构,所以就需要对tomcat.OSGi以及类加载机制有所了解 类加载可以在http://www.cnblogs.com/ghoster/p/7 ...

  8. Javascript基础笔记(部分)

    <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...

  9. 做为一个.net码农,打开公司的一个项目,大叔我哭了

    先说下背景,楼主在上海,之前一直是做BS互联网开发的,今年进入这家公司,是做软件产品的小外企. 然后,啥也不说了,直接上图吧: 因为一个屏幕没有办法显示出来,所以我截了3张图,然后拼成一张,这还是我花 ...

  10. zabbix之运维疑难总结

    2.trousers包 zabbix默认情况下要求trousers包的版本是0.3.12版本以上.如果低于这个版本,有可能zabbix-server服务启动不成功.在mysql7.1版本以上可能会使用 ...