selenium爬虫 | 爬取疫情实时动态（二）

'''
@author：Billie
更新说明：
1-28 17:00 项目开始着手，spider方法抓取到第一条疫情数据，save_data_csv方法将疫情数据保存至csv文件
1-29 13:12 目标网页文档树改变，爬取策略修改，建立新方法：spider2
1-30 15:00 新建变量national_confirm,存储全国新增确诊数
1-31 15:00 摸鱼，缝缝补补又一天
2-01 15:00 目标网页文档树又改变了，爬取策略修改，建立新方法：spider3，全国数据改用xpath方法查找，全国数据新增“较昨日+”内容显示
2-02 15:00 建立新方法：save_data_main,存储所有日期的全国动态数据到main.csv,复习numpy,pandas
'''
import csv
import pandas as pd
import numpy as np
import selenium.webdriver
from selenium.webdriver.chrome.options import Options
import threading
import os
import matplotlib.pyplot as plt
class Epidemic():
    def spider(self,url):
        global timeNum, provinceDic
        # 无窗口弹出操作
        options = Options()
        options.add_argument('--headless')
        options.add_argument('--disable-gpu')
        driver=selenium.webdriver.Chrome(options=options)
        driver.get(url)
        timeNum=driver.find_element_by_xpath('//*[@id="charts"]/div[2]/div[1]/div/p[1]').text[2:]#实时
        icbar_confirm=driver.find_element_by_xpath('//*[@id="charts"]/div[2]/div[2]/div[1]/div[2]').text#全国确诊数
        icbar_confirm_add=driver.find_element_by_xpath('//*[@id="charts"]/div[2]/div[2]/div[1]/div[1]').text#全国确诊数add
        icbar_suspect=driver.find_element_by_xpath('//*[@id="charts"]/div[2]/div[2]/div[2]/div[2]').text#疑似病例数
        icbar_suspect_add=driver.find_element_by_xpath('//*[@id="charts"]/div[2]/div[2]/div[2]/div[1]').text#疑似病例数add
        icbar_cure=driver.find_element_by_xpath('//*[@id="charts"]/div[2]/div[2]/div[3]/div[2]').text#治愈人数
        icbar_cure_add=driver.find_element_by_xpath('//*[@id="charts"]/div[2]/div[2]/div[3]/div[1]').text#治愈人数add
        icbar_dead=driver.find_element_by_xpath('//*[@id="charts"]/div[2]/div[2]/div[4]/div[2]').text#死亡人数
        icbar_dead_add=driver.find_element_by_xpath('//*[@id="charts"]/div[2]/div[2]/div[4]/div[1]').text#死亡人数add
        print("\n{}\n全国确诊：{}\n疑似病例：{}\n治愈人数：{}\n死亡人数：{}\n".format(timeNum, icbar_confirm+" "+icbar_confirm_add,icbar_suspect+" "+icbar_suspect_add, icbar_cure+" "+icbar_cure_add, icbar_dead+" "+icbar_dead_add))
        hubei=driver.find_elements_by_css_selector('div[class="placeItemWrap current"]')#湖北省的数据集
        wuhan=driver.find_elements_by_css_selector("div[city='武汉']")#武汉市的数据集
        elprovince = driver.find_elements_by_css_selector('div[class="placeItemWrap"]')#其他省的数据集
        abroad = driver.find_elements_by_css_selector('div[class="clearfix placeItem placeArea no-sharp abroad"]')#海外国家的数据集
        tplt = "{1:{0}<10}\t{2:{0}<15}\t{3:{0}<15}\t{4:{0}<15}\t{5:{0}<15}"
        print(tplt.format(chr(12288),"地区","新增确诊","确诊人数","治愈人数","死亡人数",))
        # 建立两个变量
        national_confirm = 0#全国新增确诊
        provinceDic = dict()#键为省名，值为省的具体数据
        places = hubei + wuhan + elprovince + abroad#所有的地区的数据列表合集
        for place in places:#查找目标，name\add\confirm\heal\dead
            name=place.find_element_by_css_selector("h2").text#湖北/武汉/国内/海外地区
            try:add=place.find_element_by_css_selector("div[class='add ac_add ']").text#国内新增确诊
            except:
                if name=="武汉":add = place.find_element_by_css_selector("div[class='ac_add ']").text#武汉地区新增确诊
                else:add=""#海外地区无数据
            try:confirm=place.find_element_by_css_selector("div[class='confirm']").text#国内累计确诊
            except:
                if name=="武汉":confirm=place.find_elements_by_css_selector("div")[1].text#武汉累计
                else:confirm = place.find_elements_by_css_selector("div")[0].text#海外累计确诊
            try:heal=place.find_element_by_css_selector("div[class='heal']").text#国内治愈人数
            except:
                if name=="武汉":heal=place.find_elements_by_css_selector("div")[2].text#武汉治愈人数
                else:heal = place.find_elements_by_css_selector("div")[1].text#海外治愈
            try:dead=place.find_element_by_css_selector("div[class='dead']").text#国内死亡
            except:
                if name=="武汉":dead = place.find_elements_by_css_selector("div")[3].text #武汉死亡人数
                else:dead = place.find_elements_by_css_selector("div")[2].text#海外死亡人数
            print(tplt.format(chr(12288),name,add,confirm,heal,dead,))
            provinceDic[name]=[name,confirm,heal,dead,add]
            try:#计算全国新增确诊数
                if name == "武汉":pass
                else:national_confirm+=int(add)
            except:#数据项为"-"，则跳过
                pass
        provinceDic["全国"] = ["全国", icbar_confirm, icbar_cure, icbar_dead, national_confirm, icbar_suspect]
    def save_data_csv(self,filepath,filename,dataDic,timeNum):
        # filename="_".join(time.split(":"))
        dataList=list(dataDic.values())
        with open(filepath+"//"+filename+".csv","w",newline="") as f:
            writer=csv.writer(f)
            writer.writerow(["地区","确诊人数","治愈人数","死亡人数","新增确诊","疑似病例"])
            writer.writerow(dataDic["全国"])#第一行写入全国的数据
            for i in dataList[:-2]:
                writer.writerow(i)
            writer.writerow([timeNum])#最后一行附上截至时间
            f.close()
    def save_data_main(self,filename):#存储所有日期的全国动态数据
        allfile=os.listdir("dailycsv")#所有的目标文件
        columns=["确诊人数", "治愈人数", "死亡人数", "新增确诊", "疑似病例"]#df参数1：main.csv的行索引
        index = []#df参数2：main.csv的列索引
        datalist = []#df参数3：写入df的数据
        for file in allfile:#file: 2020-xx-xx xx xx xx.csv
            index.append(file[:-4])#索引为去掉'.csv'的文件名
            with open("dailycsv//"+file,"r") as f:#打开目标文件
                data=list(csv.reader(f))#读取目标文件数据，返回list
                datalist.append(data[1][1:])#目标数据是第一行的全国数据，且从第二列开始
                f.close()
        df=pd.DataFrame(datalist,index=index,columns=columns)#创建dataframe对象
        df.to_csv(filename,encoding="gbk")#将dataframe对象保存至csv文件
    def main(self):
        base_url = "https://news.qq.com/zt2020/page/feiyan.htm"
        self.spider(url=base_url)#获取疫情实时动态信息
        self.save_data_csv(filepath="allcsv",\
                           filename=timeNum[3:22].replace(":"," "),\
                           dataDic=provinceDic,\
                           timeNum=timeNum[:22])#存入allcsv文件
        self.save_data_csv(filepath="dailycsv",\
                           filename=timeNum[3:22].replace(":"," ")[:10],\
                           dataDic=provinceDic,\
                           timeNum=timeNum[:22])#存入dailycsv文件
        self.save_data_main(filename="main.csv")#存入main.csv文件
        #设定运行间隔时间
        global timer
        timer=threading.Timer(1000,self.main)
        timer.start()
if __name__ == '__main__':
    billie=Epidemic()
    billie.main()

selenium爬虫 | 爬取疫情实时动态（二）的更多相关文章

selenium爬虫 | 爬取疫情实时动态
import csvimport selenium.webdriverfrom selenium.webdriver.chrome.options import Optionsclass spider ...
使用selenium再次爬取疫情数据(链接数据库)
爬取网页地址: 丁香医生数据库连接代码: def db_connect(): try: db=pymysql.connect('localhost','root','zzm666','payiqin ...
[python爬虫] Selenium定向爬取PubMed生物医学摘要信息
本文主要是自己的在线代码笔记.在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容. PubMed是一个免费的搜寻引擎,提供生物医学方 ...
Python3.x：Selenium+PhantomJS爬取带Ajax、Js的网页
Python3.x:Selenium+PhantomJS爬取带Ajax.Js的网页前言现在很多网站的都大量使用JavaScript,或者使用了Ajax技术.这样在网页加载完成后,url虽然不改变但 ...
python3爬虫爬取网页思路及常见问题（原创）
学习爬虫有一段时间了,对遇到的一些问题进行一下总结. 爬虫流程可大致分为:请求网页(request),获取响应(response),解析(parse),保存(save). 下面分别说下这几个过程中可以 ...
selenium登录爬取知乎出现：请求异常请升级客户端后重试的问题(用Python中的selenium接管chrome)
一.问题使用selenium自动化测试爬取知乎的时候出现了:错误代码10001:请求异常请升级客户端后重新尝试,这个错误的产生是由于知乎可以检测selenium自动化测试的脚本,因此可以阻止selen ...
python3 爬虫---爬取豆瓣电影TOP250
第一次爬取的网站就是豆瓣电影 Top 250,网址是:https://movie.douban.com/top250?start=0&filter= 分析网址'?'符号后的参数,第一个参数's ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...

随机推荐

Nginx的安装及相关配置
Nginx的安装及相关配置 Nginx 是 C语言开发,建议在 Linux 上运行,当然,也可以安装 Windows 版本,本篇则使用 CentOS 7 作为安装环境. 一. gcc 安装安装 n ...
uniapp图片转base64
直接上代码了,网上也很多一样的,这里记录下,因为仅仅第二种在真机微信小程序上我这里测试转换失败,所以就一并写在这里了: //图片转base64 urlTobase64(url){ // #ifdef ...
【Jmeter 常用方法】
https://www.jianshu.com/p/a4922b0dceba 如果if控制器的使用
【adb命令的使用，及logcat日志的分析】
实时记录日志: adb logcat -v time >D:\maimang.txtadb logcat -v threadtime > E:\Desktop\SSGame_log.txt ...
mycat配置MySQL主从读写分离
1.安装java 1.8 mycat 1.6要求的Java需要Java 1.8或1.8以上,安装Java参考以下链接: https://blog.csdn.net/weixin_43893397/ar ...
自顶向下redis4.0（2）文件事件与客户端
redis4.0的文件事件与客户端目录 redis4.0的文件事件与客户端简介正文准备阶段接受客户端连接处理数据返回数据结果参考文献简介文件事件的流程大概如下: 在服务器初始化时生 ...
全栈工程师-史上最强VSCODE插件-提高开发效率
当你点进来的时候 ,你可能是被标题吸引进来的,也有可能是偶然间,看到的,首先恭喜你,已经准备好向全栈开发工程师靠近 ,那我们不说废话,直接开始,咱们先从安装步骤开始讲起 ,因为有些人连插件在哪都不知 ...
灯光设置（light)
clc;clear all;close all; %% 台灯的设置figure('color','k')% 底座fill3([0 1 1 0],[0 0 1 1],[0 0 0 0],'b',... ...
根据数据库反向生成PD
原博文 http://www.360doc.com/content/14/0820/20/12385684_403420399.shtml 步骤 File___Reverse Engineer___D ...
（十二）、file--判断文件类型命令
一.命令描述与格式描述:linux在查看一个文件前,要首先确定该文件中数据的类型,之后再使用适当的命令或者方法打开该文件,在linux中文件的扩展名并不代表文件的类型,也就是说扩展名与文件的类型没有 ...

selenium爬虫 | 爬取疫情实时动态（二）

selenium爬虫 | 爬取疫情实时动态（二）的更多相关文章

随机推荐

热门专题