jsoup 抓取省市区

package com.xazhxc.htjcom.back.controller.base;

import cn.hutool.core.util.StrUtil;

import com.alibaba.fastjson.JSONArray;

import com.alibaba.fastjson.JSONObject;

import com.xazhxc.htjcom.entity.Citys;

import com.xazhxc.htjcom.init.HttpServerInit;

import com.xazhxc.htjcom.kit.Kits;

import com.xazhxc.htjcom.kit.PropsKit;

import com.xazhxc.htjcom.kit.UploadKit;

import com.xazhxc.htjcom.service.CitysService;

import lombok.extern.slf4j.Slf4j;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import org.tio.core.ChannelContext;

import org.tio.core.GroupContext;

import org.tio.http.common.HttpRequest;

import org.tio.http.common.HttpResponse;

import org.tio.http.common.UploadFile;

import org.tio.http.server.annotation.RequestPath;

import org.tio.http.server.mvc.Routes;

import org.tio.http.server.util.Resps;

import java.io.BufferedWriter;

import java.io.File;

import java.io.FileWriter;

import java.io.IOException;

import java.util.HashMap;

import java.util.Map;

import java.util.Set;

/**

 * 公共类

 *

 * @author leizhen.wang

 */

@RequestPath(value = "/base")

@Slf4j

public class BaseController {

    static CitysService citysService = Kits.getBean( CitysService.class);

    @Mapper

    ProductService productService;

   private static Map<Integer, String> cssMap = new HashMap<Integer, String>();

    private static BufferedWriter bufferedWriter = null;

   static {

       cssMap.put(1, "provincetr");// 省

       cssMap.put(2, "citytr");// 市

       cssMap.put(3, "countytr");// 市

   }

    @RequestPath(value = "/pro")

    public HttpResponse product(HttpRequest request) throws IOException {

        new Thread(() -> {

            try {

                initFile();

                Document connect = Jsoup.connect( "http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/" ).get();

                int level = 1;

                Elements rowProvince = connect.select("tr." + cssMap.get(level));

                for (Element provinceElement : rowProvince) {

                    Elements select = provinceElement.select("a");

                    for (Element province  : select) {

                        try {

                            parseNextLevel(province, level + 1, null, null);

                        } catch (IOException e) {

                            e.printStackTrace();

                        }

//                        System.out.println("----province-----"+province);

                    }

                }

                closeStream();

            } catch (IOException e) {

                e.printStackTrace();

            }

        }).start();

        return Resps.json( request, Kits.result().ok() );

    }

    private static void closeStream() {

        if (bufferedWriter != null) {

            try {

                bufferedWriter.close();

            } catch (IOException e) {

                e.printStackTrace();

            }

        }

    }

    private static void parseNextLevel(Element parentElement, int level, String code, String area) throws IOException {

        try {

            Thread.sleep(500);

        } catch (InterruptedException e) {

            e.printStackTrace();

        }

        String attr = parentElement.attr( "abs:href" );

        if (StrUtil.isEmpty( code )) {

            code = attr.substring( 54,56 )+"0000";

        }

//        Citys citys = new Citys(String.valueOf( SnowFlakeUtil.getFlowIdInstance().nextId() ), code, parentElement.text(), "-1");

//        citysService.insert( citys );

        Document doc = Jsoup.connect( attr).get();

        if (doc != null) {

            Elements newsHeadlines = doc.select("tr." + cssMap.get(level));

            for (Element element : newsHeadlines) {

                if (StrUtil.isEmpty( area )) {

//                    printInfo(element, level + 1, code);

                } else {

                    printInfo2(element, level + 1, code);

                }

                Elements select = element.select("a");// 在递归调用的时候，这里是判断是否是村一级的数据，村一级的数据没有a标签

//                System.out.println(select);

                if (select.size() != 0) {

                    code = element.select("td").first().text();

                    parseNextLevel2(select.last(), level + 1, code, "area");

                }

            }

        }

    }

    private static void parseNextLevel2(Element parentElement, int level, String code, String area) throws IOException {

        try {

            Thread.sleep(500);

        } catch (InterruptedException e) {

            e.printStackTrace();

        }

        String attr = parentElement.attr( "abs:href" );

        if (StrUtil.isEmpty( code )) {

            code = attr.substring( 54,56 )+"0000";

        }

        Document doc = Jsoup.connect( attr).get();

        if (doc != null) {

            Elements newsHeadlines = doc.select("tr." + cssMap.get(level));

            for (Element element : newsHeadlines) {

                printInfo2(element, level + 1, code);

            }

        }

    }

    private static void initFile() throws IOException {

        bufferedWriter = new BufferedWriter(new FileWriter(new File("d:\\CityInfo.txt"), true));

    }

    private static void printInfo(Element element, int level, String pid) {

//        System.out.println(pid + "---: "+element.select("td").last().text()+"============="+element.select("td").first().text());

        Citys citys = new Citys(String.valueOf( SnowFlakeUtil.getFlowIdInstance().nextId() ), element.select("td").first().text(), element.select("td").last().text(), pid);

        citysService.insert( citys );

        /*try {

            bufferedWriter.write(element.select("td").last().text() + "{" + level + "}["

                    + element.select("td").first().text() + "]");

            bufferedWriter.newLine();

            bufferedWriter.flush();

        } catch (IOException e) {

            e.printStackTrace();

        }*/

    }

    private static void printInfo2(Element element, int level, String pid) {

//        System.out.println(pid + "---: "+element.select("td").last().text()+"============="+element.select("td").first().text());

        Citys citys = new Citys(String.valueOf( SnowFlakeUtil.getFlowIdInstance().nextId() ), element.select("td").first().text(), element.select("td").last().text(), pid);

        citysService.insert( citys );

        /*try {

            bufferedWriter.write(element.select("td").last().text() + "{" + level + "}["

                    + element.select("td").first().text() + "]");

            bufferedWriter.newLine();

            bufferedWriter.flush();

        } catch (IOException e) {

            e.printStackTrace();

        }*/

    }

}

jsoup 抓取省市区的更多相关文章

jsoup抓取网页内容
java项目有时候我们需要别人网页上的数据,怎么办?我们可以借助第三方架包jsou来实现,jsoup的中文文档,那怎么具体的实现呢?那就跟我一步一步来吧最先肯定是要准备好这个第三方架包啦,下载地址, ...
jsoup抓取网页+具体解说
jsoup抓取网页+具体解说 Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目.我以前在 IBM DW 上发表过两篇关于 htmlparser 的文章.各自 ...
Jsoup抓取网页数据完成一个简易的Android新闻APP
前言:作为一个篮球迷,每天必刷NBA新闻.用了那么多新闻APP,就想自己能不能也做个简易的新闻APP.于是便使用Jsoup抓取了虎扑NBA新闻的数据,完成了一个简易的新闻APP.虽然没什么技术含量,但 ...
使用java开源工具httpClient及jsoup抓取解析网页数据
今天做项目的时候遇到这样一个需求,需要在网页上展示今日黄历信息,数据格式如下公历时间:2016年04月11日星期一农历时间:猴年三月初五天干地支:丙申年壬辰月癸亥日宜:求子祈福开光 ...
Jsoup抓取、解析网页和poi存取excel综合案例——采集网站的联系人信息
需求:采集网站中每一页的联系人信息一.创建maven工程,添加jsoup和poi的依赖包 <!-- https://mvnrepository.com/artifact/org.apache. ...
HttpClient+Jsoup 抓取网页信息（网易贵金属为例）
废话不多说直接讲讲今天要做的事. 利用HttpClient和Jsoup技术抓取网页信息.HttpClient是支持HTTP协议的客户端编程工具包,并且它支持HTTP协议. jsoup 是一款基于 Ja ...
使用jsoup抓取新闻信息
1,jsoup简介 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和 ...
HttpClients+Jsoup抓取笔趣阁小说，并保存到本地TXT文件
前言首先先介绍一下Jsoup:(摘自官网) jsoup is a Java library for working with real-world HTML. It provides a very ...
jsoup抓取借书记录
package tushuguan; import java.io.IOException; import java.util.ArrayList; import java.util.HashMap; ...

随机推荐

Halcon中一些突然想不起来但确实有用的算子
1.Develop dev_display 在现有图形窗口中显示图像目标. dev_set_color 设置一个或更多输出颜色,通常用于设置region或者xld的颜色. dev_set_dra ...
DALSA相机SDK不完全教程
1.SDK介绍 Dalsa是全球顶尖的CCD/CMOS芯片和相机制造商,总部位于加拿大,我使用的是 Dalsa的 Genie_TS_M1920(黑白)和 Genie_TS_C2048(彩色)两款工业相 ...
在OpenSSL中添加自定义加密算法
一.简介本文以添加自定义算法EVP_ssf33为例,介绍在OpenSSL中添加自定义加密算法的方法二.步骤 1.修改crypto/object/objects.txt,注册算法OID,如下: rs ...
vs2012安装qt5.5.1
https://blog.csdn.net/a6513806/article/details/80098057
[SoapUI] 按照 Test Step Type 获取所有满足条件的 Test Step
获取当前测试用例下所有Groovy Script类型的测试步骤 def testStepList = testRunner.testCase.getTestStepsOfType(com.eviwar ...
MongoDB与CouchDB全方位对比(转)
出处:http://www.csdn.net/article/2011-03-21/294226 本文见于MongoDB官方网站,MongoDB与CouchDB很相似,他们都是文档型存储,数据存储格式 ...
编写高质量代码改善C#程序的157个建议——建议143：方法抽象级别应在同一层次
建议143:方法抽象级别应在同一层次看下面代码: class SampleClass { public void Init() { //本地初始化代码1 //本地初始化代码2 RemoteInit( ...
Javascript与数据结构系列（二）——队列的实现
队列实现使用数组来实现队列看起来顺理成章.JavaScript 中的数组具有其他编程语言中没有的优点, 数组的 push() 方法可以在数组末尾加入元素,shift() 方法则可删除数组的第一个元素 ...
no getter for property named 'power_state
错误信息:nested exception is org.apache.ibatis.reflection.ReflectionException: There is no getter for pr ...
【C#】泛型
泛型是一个非常有用的技术,在博客园里面有太多说到泛型的好文章,这里我推荐一篇我个人觉得非常全面,也非常齐全的文章. (重造轮子很傻!!!) C# -- 泛型(1) C# -- 泛型(2) C# -- ...

jsoup 抓取省市区

jsoup 抓取省市区的更多相关文章

随机推荐

热门专题