selenium爬虫 | 爬取疫情实时动态

import csv
import selenium.webdriver
from selenium.webdriver.chrome.options import Options

class spider():
    def get_msg(self,url):
        global timeNum, provinceDic
        # 无窗口弹出操作
        options = Options()
        options.add_argument('--headless')
        options.add_argument('--disable-gpu')
        driver=selenium.webdriver.Chrome(options=options)
        driver.get(url)
        timeNum=driver.find_element_by_xpath('//*[@id="charts"]/div[2]/span[1]').text#实时
        icbar_confirm=driver.find_element_by_xpath('//*[@id="charts"]/div[3]/div[1]/div[1]').text#全国确诊数
        icbar_suspect=driver.find_element_by_xpath('//*[@id="charts"]/div[3]/div[2]/div[1]').text#疑似病例数
        icbar_cure=driver.find_element_by_xpath('//*[@id="charts"]/div[3]/div[3]/div[1]').text#治愈人数
        icbar_dead=driver.find_element_by_xpath('//*[@id="charts"]/div[3]/div[4]/div[1]').text#死亡人数
        print("{}\n全国确诊：{}\n疑似病例：{}\n治愈人数：{}\n死亡人数：{}\n".format(timeNum, icbar_confirm, icbar_cure, icbar_dead,icbar_suspect))
        place_current=driver.find_elements_by_css_selector('div[class="place  current"]')#湖北省的数据
        place = driver.find_elements_by_css_selector('div[class="place"]')#其他省的数据
        place_= driver.find_elements_by_css_selector('div[class="place  "]')#其他省的数据
        place_no_sharp = driver.find_elements_by_css_selector("div[class='place no-sharp ']")#自治区的数据
        tplt = "{0:{4}<10}\t{1:{4}<15}\t{2:{4}<15}\t{3:{4}<15}"
        print(tplt.format("地区","确诊人数","治愈人数","死亡人数",chr(12288)) + "\n")
        # 建立一个字典，键为省名，值为省的具体数据
        provinceDic=dict()
        provinceDic["全国"]=["全国",icbar_confirm, icbar_cure, icbar_dead, icbar_suspect]
        places = place_current + place + place_ + place_no_sharp  # 所有的行省的数据列表合集
        for place in places:
            # print(place.text)
            name=place.find_element_by_css_selector("span[class='infoName']").text
            confirm=place.find_element_by_css_selector("span[class='confirm'] span").text
            try:
                heal=place.find_element_by_css_selector("span[class='heal '] span").text
            except:
                heal = place.find_element_by_css_selector("span[class='heal hide'] span").text
            try:
                dead=place.find_element_by_css_selector("span[class='dead '] span").text
            except:
                dead=place.find_element_by_css_selector("span[class='dead hide'] span").text
            print(tplt.format(name,confirm,heal,dead,chr(12288)))
            provinceDic[name]=[name,confirm,heal,dead]
    def save_data_as_csv(self,filename,dataList):
        # filename="_".join(time.split(":"))
        filename=filename.replace(":"," ")#调整时间
        with open(filename+".csv","w",newline="") as f:
            writer=csv.writer(f)
            writer.writerow(["地区","确诊人数","治愈人数","死亡人数","疑似病例"])
            for i in dataList:
                writer.writerow(i)
            f.close()
    def main(self):
        url = "https://news.qq.com/zt2020/page/feiyan.htm"
        self.get_msg(url)
        self.save_data_as_csv(timeNum,provinceDic.values())

billie=spider()
billie.main()

selenium爬虫 | 爬取疫情实时动态的更多相关文章

selenium爬虫 | 爬取疫情实时动态（二）
'''@author:Billie更新说明:1-28 17:00 项目开始着手,spider方法抓取到第一条疫情数据,save_data_csv方法将疫情数据保存至csv文件1-29 13:12 目标 ...
使用selenium再次爬取疫情数据(链接数据库)
爬取网页地址: 丁香医生数据库连接代码: def db_connect(): try: db=pymysql.connect('localhost','root','zzm666','payiqin ...
[python爬虫] Selenium定向爬取PubMed生物医学摘要信息
本文主要是自己的在线代码笔记.在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容. PubMed是一个免费的搜寻引擎,提供生物医学方 ...
Python3.x：Selenium+PhantomJS爬取带Ajax、Js的网页
Python3.x:Selenium+PhantomJS爬取带Ajax.Js的网页前言现在很多网站的都大量使用JavaScript,或者使用了Ajax技术.这样在网页加载完成后,url虽然不改变但 ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
python3爬虫爬取网页思路及常见问题（原创）
学习爬虫有一段时间了,对遇到的一些问题进行一下总结. 爬虫流程可大致分为:请求网页(request),获取响应(response),解析(parse),保存(save). 下面分别说下这几个过程中可以 ...
selenium登录爬取知乎出现：请求异常请升级客户端后重试的问题(用Python中的selenium接管chrome)
一.问题使用selenium自动化测试爬取知乎的时候出现了:错误代码10001:请求异常请升级客户端后重新尝试,这个错误的产生是由于知乎可以检测selenium自动化测试的脚本,因此可以阻止selen ...
使用selenium 多线程爬取爱奇艺电影信息
使用selenium 多线程爬取爱奇艺电影信息转载请注明出处. 爬取目标:每个电影的评分.名称.时长.主演.和类型爬取思路: 源文件:(有注释) from selenium import webd ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...

随机推荐

Java并发编程的艺术（一）——并发编程的注意问题
并发编程是为了使程序运行得更快,但是,不是启动更多得线程就能最大限度地执行并发,也不是线程更多就能使得程序运行得更快,而且并发编程更容易产生错误,如果要高效且正确地执行并发,就需要注意这三种问题上下 ...
JavaScript：正则表达式匹配规则
正则表达式的语法规则: <!DOCTYPE html> <html lang="en"> <head> <meta charset=&qu ...
SpringBoot集成基于tobato的fastdfs-client实现文件上传下载和删除
1. 简介基于tobato的fastdfs-client是一个功能完善的FastDFS客户端工具,它是在FastDFS作者YuQing发布的客户端基础上进行了大量的重构,提供了上传.下载.删除. ...
Hive数据倾斜优化
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显.主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平 ...
面试 16-01.MVVM
16-01.MVVM #前言 MVVM的常见问题: 如何理解MVVM 如何实现MVVM 是否解读过Vue的源码题目: 说一下使用 jQuery 和使用框架的区别说一下对 MVVM 的理解 vue ...
图的建立以及应用（BFS，DFS，Prim）
关于带权无向图的一些操作题目:根据图来建立它的邻接矩阵,通过邻接矩阵转化为邻接表,对邻接表进行深度优先访问和广度优先访问,最后用邻接矩阵生成它的最小生成树: 1．输入一个带权无向图(如下面图1和图2 ...
Synchronized用法原理和锁优化升级过程(面试)
简介多线程一直是面试中的重点和难点,无论你现在处于啥级别段位,对synchronized关键字的学习避免不了,这是我的心得体会.下面咱们以面试的思维来对synchronized做一个系统的描述,如果 ...
Mongodb分布式集群副本集+分片
目录简介 1. 副本集 1.1 MongoDB选举的原理 1.2 复制过程 2. 分片技术 2.1 角色 2.2 分片的片键 2.3 片键分类环境介绍 1.获取软件包 2.创建路由.配置.分片等的 ...
Python写一个对象，让它自己能够迭代
仿写range()对象,对象是可迭代的: 1 #!usr/bin/env python3 2 # -*- coding=utf-8 -*- 3 4 class myRange(): 5 #初始化,也叫 ...
CentOS8更换国内YUM源
rm -rf /etc/yum.repos.d/* wget -O /etc/yum.repos.d/CentOS-cnnic.repo https://feieryun.oss-cn-zhangji ...

selenium爬虫 | 爬取疫情实时动态

selenium爬虫 | 爬取疫情实时动态的更多相关文章

随机推荐

热门专题