python爬取疫情数据详解

首先逐步分析每行代码的意思：

这是要引入的东西：

from os import path

import requests

from bs4 import BeautifulSoup

import json

import pymysql

import numpy as np

import time

输入请求地址：

#请求地址

url = 'https://ncov.dxy.cn/ncovh5/view/pneumonia?from=timeline&isappinstalled=0'

为了防止被反爬虫（伪装成浏览器）：

#为了避免反爬，伪装成浏览器：

#创建头部信息

headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'}

response =  requests.get(url,headers = headers)  #发送网络请求

页面输出显示信息：

#print(response.content.decode('utf-8'))#以字节流形式打印网页源码

content = response.content.decode('utf-8')

#print(content)

进行解析：

soup = BeautifulSoup(content, 'html.parser')#指定Beautiful的解析器为“html.parser”

之后就是对于数组的处理：

'''*find()
返回的是第一个匹配的标签结果
*find_all()
返回的是所有匹配结果的列表'''
listA = soup.find_all(name='script',attrs={"id":"getAreaStat"})
#世界确诊
listB = soup.find_all(name='script',attrs={"id":"getListByCountryTypeService2"})
account = str(listA)#转化成字符串
messages = account[52:-21]#截取从52到后边倒数21个

转换类型：

messages_json = json.loads(messages)#json.loads 用于解码 JSON 数据。该函数返回 Python 字段的数据类型。

之后就是线管的数据传入list然后对数据库进行操作了。

具体的代码如下：

from os import path

import requests

from bs4 import BeautifulSoup

import json

import pymysql

import numpy as np

import time

#请求地址

url = 'https://ncov.dxy.cn/ncovh5/view/pneumonia?from=timeline&isappinstalled=0'

#为了避免反爬，伪装成浏览器：

#创建头部信息

headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'}

response =  requests.get(url,headers = headers)  #发送网络请求

#print(response.content.decode('utf-8'))#以字节流形式打印网页源码

content = response.content.decode('utf-8')

#print(content)

soup = BeautifulSoup(content, 'html.parser')#指定Beautiful的解析器为“html.parser”

listA = soup.find_all(name='script',attrs={"id":"getAreaStat"})

#世界确诊

listB = soup.find_all(name='script',attrs={"id":"getListByCountryTypeService2"})

#listA = soup.find_all(name='div',attrs={"class":"c-touchable-feedback c-touchable-feedback-no-default"})

account = str(listA)

#world_messages = str(listB)[:-]

messages = account[:-]

messages_json = json.loads(messages)

#world_messages_json = json.loads(world_messages)

valuesList = []

cityList = []

'''

worldList = []

for k in range(len(world_messages_json)):

    worldvalue = (world_messages_json[k].get('id'),world_messages_json[k].get('createTime'),world_messages_json[k].get('modifyTime'),world_messages_json[k].get('tags'),

             world_messages_json[k].get('countryType'),world_messages_json[k].get('continents'),world_messages_json[k].get('provinceId'),world_messages_json[k].get('provinceName'),

             world_messages_json[k].get('provinceShortName'),world_messages_json[k].get('cityName'),world_messages_json[k].get('currentConfirmedCount'),world_messages_json[k].get('confirmedCount'),

             world_messages_json[k].get('suspectedCount'),world_messages_json[k].get('curedCount'),world_messages_json[k].get('deadCount'),world_messages_json[k].get('locationId'),

             world_messages_json[k].get('countryShortCode'),)

    worldList.append(worldvalue)

'''

con=len(messages_json)

k=

for i in range(len(messages_json)):

    #value = messages_json[i]

    k=k+

    value = (k,time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())),messages_json[i].get('provinceShortName'),None,messages_json[i].get('confirmedCount'),messages_json[i].get('suspectedCount'),messages_json[i].get('curedCount'),messages_json[i].get('deadCount'),messages_json[i].get('locationId'))

    valuesList.append(value)

    cityValue = messages_json[i].get('cities')

    #print(cityValue)

    for j in range(len(cityValue)):

        con=con+

        cityValueList = (con,time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())),messages_json[i].get('provinceShortName'),cityValue[j].get('cityName'),cityValue[j].get('confirmedCount'),cityValue[j].get('suspectedCount'),cityValue[j].get('curedCount'),cityValue[j].get('deadCount'),cityValue[j].get('locationId'))

        #print(cityValueList)

        cityList.append(cityValueList)

    #cityList.append(cityValue)

db = pymysql.connect("localhost", "root", "密码", "ceshi1", charset='utf8')

cursor = db.cursor()

array = np.asarray(valuesList[])

#sql_clean_world = "TRUNCATE TABLE world_map"

#sql_clean_city = "TRUNCATE TABLE city_map"

#sql_clean_json = "TRUNCATE TABLE province_data_from_json"

sql_clean_province = "TRUNCATE TABLE info3"

#sql1 = "INSERT INTO city_map values (%s,%s,%s,%s,%s,%s,%s,%s)"

#sql_world = "INSERT INTO world_map values (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)"

#sql = "INSERT INTO province_map values (0,'%s','%s','%s','%s','%s','%s','%s','%s','%s','%s') "

sql = "INSERT INTO info3 values (%s,%s,%s,%s,%s,%s,%s,%s,%s) "

#sql = "INSERT INTO province_map (provinceName,provinceShortName,correntConfirmedCount,confirmedCount,suspectedCount,curedCount,deadCount,comment,locationId,statisticsData) values (0,'%s','%s','%s','%s','%s','%s','%s','%s','%s','%s') "

#sql = """INSERT INTO province_map (provinceName,provinceShortName,correntConfirmedCount,confirmedCount,suspectedCount,curedCount,deadCount,comment,locationId,statisticsData) values ('湖北省', '湖北', 43334, 64786, 0, 18889, 2563, '', 420000, 'https://file1.dxycdn.com/2020/0223/618/3398299751673487511-135.json')"""

value_tuple = tuple(valuesList)

cityTuple = tuple(cityList)

#worldTuple = tuple(worldList)

#print(cityTuple)

#print(tuple(value_tuple))

try:

    #cursor.execute(sql_clean_city)

    cursor.execute(sql_clean_province)

    #cursor.executemany(sql, value_tuple)

    #cursor.executemany(sql1,cityTuple)

    db.commit()

except:

    print('执行失败，进入回调1')

    db.rollback()

try:

    #cursor.execute(sql_clean_city)

    #cursor.execute(sql_clean_province)

    cursor.executemany(sql, value_tuple)

    #cursor.executemany(sql1,cityTuple)

    db.commit()

except:

    print('执行失败，进入回调3')

    db.rollback()

try:

    #cursor.execute(sql_clean_city)

    #cursor.execute(sql_clean_province)

    #cursor.executemany(sql, value_tuple)

    cursor.executemany(sql,cityTuple)

    db.commit()

except:

    print('执行失败，进入回调4')

    db.rollback()

#print(messages_json)

#print(account[:-])

# soupDiv = BeautifulSoup(listA,'html.parser')

# listB = soupDiv.find_all(name='div',attrs={"class":"c-gap-bottom-zero c-line-clamp2"})

#for i in listA:

    #print(i)

#listA[]

#print(listA)

db.close()

python爬取疫情数据详解的更多相关文章

python网络爬虫（7）爬取静态数据详解
目的爬取http://seputu.com/数据并存储csv文件导入库 lxml用于解析解析网页HTML等源码,提取数据.一些参考:https://www.cnblogs.com/zhangxin ...
利用Python爬取疫情数据并使用可视化工具展示
import requests, json from pyecharts.charts import Map, Page, Pie, Bar from pyecharts import options ...
python爬取疫情数据存入MySQL数据库
import requests from bs4 import BeautifulSoup import json import time from pymysql import * def mes( ...
如何使用Python爬取基金数据，并可视化显示
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于Will的大食堂,作者打饭大叔前言美国疫情越来越严峻,大选也进入 ...
毕设之Python爬取天气数据及可视化分析
写在前面的一些P话:(https://jq.qq.com/?_wv=1027&k=RFkfeU8j) 天气预报我们每天都会关注,我们可以根据未来的天气增减衣物.安排出行,每天的气温.风速风向. ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
Python爬取房产数据，在地图上展现！
小伙伴,我又来了,这次我们写的是用python爬虫爬取乌鲁木齐的房产数据并展示在地图上,地图工具我用的是 BDP个人版-免费在线数据分析软件,数据可视化软件 ,这个可以导入csv或者excel数据. ...
python爬取网站数据保存使用的方法
这篇文章主要介绍了使用Python从网上爬取特定属性数据保存的方法,其中解决了编码问题和如何使用正则匹配数据的方法,详情看下文编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这 ...
python爬取拉勾网数据并进行数据可视化
爬取拉勾网关于python职位相关的数据信息,并将爬取的数据已csv各式存入文件,然后对csv文件相关字段的数据进行清洗,并对数据可视化展示,包括柱状图展示.直方图展示.词云展示等并根据可视化的数据做 ...

随机推荐

【分布式锁】02-使用Redisson实现公平锁原理
前言前面分析了Redisson可重入锁的原理,主要是通过lua脚本加锁及设置过期时间来保证锁执行的原子性,然后每个线程获取锁会将获取锁的次数+1,释放锁会将当前锁次数-1,如果为0则表示释放锁成功. ...
037.集群网络-Docker网络实现
一 Docker网络 1.1 Docker网络类型标准的Docker支持以下4类网络模式: host模式:使用--net=host指定. container模式:使用--net=container: ...
JAVA EE,JAVA SE,JAVA ME,JDK,JRE,JVM之间的区别
JAVA EE是开发企业级应用,主要针对web开发有一套解决方案. JAVA SE是针对普通的桌面开发和小应用开发. JAVA ME是针对嵌入式设备开发,如手机. JRE是程序的运行环境 JDK是程序 ...
全国职业技能大赛信息安全管理与评估-第三阶段-弱口令自动爆破+读取Flag脚本
自动爆破SSH弱口令+读取Flag #coding=utf-8 import paramiko sshc = paramiko.SSHClient() sshc.set_missing_host_ke ...
【洛谷】P2444 [POI2000]病毒——AC自动机
题目链接题目描述二进制病毒审查委员会最近发现了如下的规律:某些确定的二进制串是病毒的代码.如果某段代码中不存在任何一段病毒代码,那么我们就称这段代码是安全的.现在委员会已经找出了所有的病毒代码段, ...
Building Applications with Force.com and VisualForce (DEV401) （二十）：Visualforce Pages: Visualforce Componets (Tags)
Dev401-021:Visualforce Pages: Visualforce Componets (Tags) Module Agenda1.Tag Basics2.Tag Bindings T ...
Building Applications with Force.com and VisualForce(Dev401)( 八):Designing Applications for Multiple Users: Controling Access to Records.
Module Objectives1.List feature that affect access to data at the record level.2.List the organizati ...
OpenCV-Python 直方图-1：查找、绘制和分析 | 二十六
目标学会使用OpenCV和Numpy函数查找直方图使用OpenCV和Matplotlib函数绘制直方图你将看到以下函数:cv.calcHist(),np.histogram()等. 理论那么 ...
使用Python创建自己的Instagram滤镜
不知道你有没有使用过Instagram滤镜,它们非常方便,只需单击几个按钮,就可以变换我要发布的照片. 你是否想过自己可以创建一个?答案是可以的! 在本文中,我将向你展示如何使用代码和示例图像来创 ...
成为视频分析专家：自动生成视频集锦(Python实现)
介绍我是个超级板球迷.从我记事起,我就迷上了这项运动,至今它仍在我的日常生活中起着重要的作用.我相信很多读到这篇文章的人都会点头! 但是自从我开始工作以来,要跟上所有的比赛就成了一件棘手的事.我不能 ...

python爬取疫情数据详解

python爬取疫情数据详解的更多相关文章

随机推荐

热门专题