利用Jsoup爬取新冠疫情数据并存至数据库

　　需要用到的jar包（用来爬取的jsoup，htmlunit-2.37.0-bin以及连接数据库中的mysql.jar）

　　链接：https://pan.baidu.com/s/1VlylWmlhjd8Ka8VTruQEnA 提取码：dxeq

　　爬取的原网站为：https://wp.m.163.com/163/page/news/virus_report/index.html?_nw_=1&_anw_=1

Paqu.java

package control;

import java.io.IOException;

import java.text.SimpleDateFormat;

import java.util.ArrayList;

import java.util.Date;

import java.util.List;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import com.gargoylesoftware.htmlunit.BrowserVersion;

import com.gargoylesoftware.htmlunit.WebClient;

import com.gargoylesoftware.htmlunit.html.HtmlInput;

import com.gargoylesoftware.htmlunit.html.HtmlPage;

import com.gargoylesoftware.htmlunit.html.HtmlSubmitInput;

import Dao.AddService;

public class Paqu {

    public static void main(String args[]) {

        // TODO Auto-generated method stub

        String sheng="";

        String xinzeng="";

        String leiji="";

        String zhiyu="";

        String siwang="";

         String url = "https://wp.m.163.com/163/page/news/virus_report/index.html?_nw_=1&_anw_=1";

        int i=0;

        try {

            //构造一个webClient 模拟Chrome 浏览器

            WebClient webClient = new WebClient(BrowserVersion.CHROME);

            //支持JavaScript

            webClient.getOptions().setJavaScriptEnabled(true);

            webClient.getOptions().setCssEnabled(false);

            webClient.getOptions().setActiveXNative(false);

            webClient.getOptions().setCssEnabled(false);

            webClient.getOptions().setThrowExceptionOnScriptError(false);

            webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);

            webClient.getOptions().setTimeout(8000);

            HtmlPage rootPage = webClient.getPage(url);

            //设置一个运行JavaScript的时间

            webClient.waitForBackgroundJavaScript(6000);

            String html = rootPage.asXml();

            Document doc = Jsoup.parse(html);

            //System.out.println(doc);

            Element listdiv1 = doc.select(".wrap").first();

            Elements listdiv2 = listdiv1.select(".province");

            for(Element s:listdiv2) {

                Elements span = s.getElementsByTag("span");

                Elements real_name=span.select(".item_name");

                Elements real_newconfirm=span.select(".item_newconfirm");

                Elements real_confirm=span.select(".item_confirm");

                Elements real_dead=span.select(".item_dead");

                Elements real_heal=span.select(".item_heal");

                sheng=real_name.text();

                xinzeng=real_newconfirm.text();

                leiji=real_confirm.text();

                zhiyu=real_heal.text();

                siwang=real_dead.text();

                //System.out.println(sheng+" 新增确诊:"+xinzeng+" 累计确诊:"+leiji+" 累计治愈:"+zhiyu+" 累计死亡:"+siwang);

                Date currentTime=new Date();

                SimpleDateFormat formatter = new SimpleDateFormat("yyyy-MM-dd HH:mm");

                String time = formatter.format(currentTime);//获取当前时间

                AddService dao=new AddService();

                dao.add("myinfo", sheng, xinzeng, leiji, zhiyu, siwang,time);//将爬取到的数据添加至数据库

            }

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

            System.out.println("爬取失败");

        }

    }

}

　　AddService.java:

package Dao;

import java.sql.Connection;

import java.sql.Statement;

import utils.DBUtils;

public class AddService {

    public void add(String table,String sheng,String xinzeng,String leiji,String zhiyu,String dead,String time) {

        String sql = "insert into "+table+" (Province,Newconfirmed_num ,Confirmed_num,Cured_num,Dead_num,Time) values('" + sheng + "','" + xinzeng +"','" + leiji +"','" + zhiyu + "','" + dead+ "','" + time+ "')";

        System.out.println(sql);

        Connection conn = DBUtils.getConn();

        Statement state = null;

        int a = 0;

        try {

            state = conn.createStatement();

            a=state.executeUpdate(sql);

        } catch (Exception e) {

            e.printStackTrace();

        } finally {

            DBUtils.close(state, conn);

        }

    }

}

数据库建表如下：

遇到的问题

　　一开始的数据是动态加载的，无法获取确定的数据，最后在代码中添加了一段js内容来获取动态数据。

　　其中还尝试过爬取其他的网站上的数据，但doc并不能很好的输出，只能输出网站的大框架，无法获取具体到内容。

利用Jsoup爬取新冠疫情数据并存至数据库的更多相关文章

利用python爬取58同城简历数据
利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
jsoup爬取某网站安全数据
jsoup爬取某网站安全数据 package com.vfsd.net; import java.io.IOException; import java.sql.SQLException; impor ...
利用Crawlspider爬取腾讯招聘数据(全站，深度)
需求: 使用crawlSpider(全站)进行数据爬取 - 首页: 岗位名称,岗位类别 - 详情页:岗位职责 - 持久化存储代码: 爬虫文件: from scrapy.linkextractors ...
python爬取新浪股票数据—绘图【原创分享】
目标:不做蜡烛图,只用折线图绘图,绘出四条线之间的关系. 注:未使用接口,仅爬虫学习,不做任何违法操作. """ 新浪财经,爬取历史股票数据 ""&q ...
Java爬取丁香医生疫情数据并存储至数据库
1.通过页面的url获取html代码 // 根URL private static String httpRequset(String requesturl) throws IOException { ...
java 利用jsoup 爬取知乎首页问题
今天学了下java的爬虫,首先要下载jsoup的包,然后导入,导入过程:首先右击工程:Build Path ->configure Build Path,再点击Add External JARS ...
利用jsoup爬取百度网盘资源分享连接（多线程）
突然有一天就想说能不能用某种方法把百度网盘上分享的资源连接抓取下来,于是就动手了.知乎上有人说过最好的方法就是http://pan.baidu.com/wap抓取,一看果然链接后面的uk值是一串数字, ...
Python：爬取全国各省疫情数据并在地图显示
代码: import requests import pymysql import json from pyecharts import options as opts from pyecharts. ...
5分钟python爬虫案例，手把手教爬取国内外最新疫情历史数据
俗话说的好,“授之以鱼不如授之以渔”,所以小编今天就把爬疫情历史数据的方法分享给你们. 基本思路:分析腾讯新闻“抗肺炎”版块,采用“倒推法”找到疫情数据接口,然后用python模拟请求,进而保存疫情历 ...

随机推荐

Idea JAVA开发工具快速上手-常用快捷键汇总
前言: 之前一直使用Eclipse 系列开发IDE工具,由于eclipse是开源的所以,一般情况,eclipse基本上每一个java入门者的首选开发工具,其次 Myeclipse.不过现在越来越多的人 ...
java IO流（九） Path、Paths、Files的使用
1.NIO的使用说明:>Java NIO (New IO,Non-Blocking IO)是从Java 1.4版本开始引入的一套新的IO API,可以替代标准的Java IO AP.>NI ...
java 面向对象（五）：类结构方法（二）关键字:return；方法的重载；可变个数形参的方法
return关键字:1.使用范围:使用在方法体中2.作用:① 结束方法 * ② 针对于返回值类型的方法,使用"return 数据"方法返回所要的数据.3.注意点:return关键字 ...
数据可视化之分析篇（三）Power BI总计行错误，这个技巧一定要掌握
https://zhuanlan.zhihu.com/p/102567707 前一段介绍过一个客户购买频次统计的案例: Power BI 数据分析应用:客户购买频次分布. 我并没有在文章中显示总计行 ...
二、Python系列——time时间格式的转换及计算
# -*- coding:utf-8 -*- import pandas as pd import time import datetime start_date = '2020-06-08' # 一 ...
[Qt插件]-01Qt插件&&提升部件(自定义控件)
本篇的文档为:How to Create Qt Plugins https://doc.qt.io/qt-5/plugins-howto.html 前言 Qt插件(Qt Plugin)就是一个共享 ...
javascript : 递归遍历数组
我们假设有一个对象数组. 这个对象数组里的对象,有一个叫children的key,value也是一个对象数组. 这个数组里面可能还有children... 现在我们想递归遍历它. 上代码. test_ ...
题解洛谷 P4546 【[THUWC2017]在美妙的数学王国中畅游】
首先发现有连边和删边的操作,所以我们肯定要用\(LCT\)来进行维护. 接下来考虑如何进行\(LCT\)上的信息合并. \(f=1\),则函数为\(f(x)=sin(ax+b)\) \(f=2\),则 ...
遍历map的6种方式
1,平时开发中对map的使用很多,然后发现了很多map可能存在的各种问题:如HashMap 需要放置 1024 个元素,由于没有设置容量初始大小,随着元素不断增加,容量 7 次被迫扩大,resize ...
Mybatis（一）Mybatis简介与入门程序
Mybatis简介: MyBatis是一个优秀的持久层框架,它对jdbc的操作数据库的过程进行封装,使开发者只需要关注 SQL 本身,而不需要花费精力去处理例如注册驱动.创建connection.创建 ...

利用Jsoup爬取新冠疫情数据并存至数据库

利用Jsoup爬取新冠疫情数据并存至数据库的更多相关文章

随机推荐

热门专题