使用java爬取国家统计局的12位行政区划代码

前言：

本文基于j2ee的原始url进行都写，解析指定内容时也是使用很傻的形式去查找指定格式的字符串来实现的。

更优雅的方式是可以使用apache的HttpClient和某些文档模型将HTML字符串构建成doc来进行解析。

目前已经修改代码适配最新的2015年的抓取。

爬取的原因：统计局网站提供的页面并按照：省-市-县-镇-村这样的层次关系来组织页面，人工去获取所有的代码工作量大而繁琐，遂有了下面很粗糙的代码

代码如下：

 import java.io.BufferedReader;

 import java.io.BufferedWriter;

 import java.io.File;

 import java.io.FileWriter;

 import java.io.InputStreamReader;

 import java.net.URL;

 import java.nio.charset.Charset;

 /**

  * 从国家统计局网站爬取2013年12位到村级别的行政区划代码

  * @author 杨志龙

  * blog:http://www.cnblogs.com/yangzhilong

  *

  */

 public class ReadCodeFromWeb {

     public static final String baseUrl = "http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/";

     //设置utf-8发现有部分字符有乱码

     public static final String CHARSET = "GBK";

     public static StringBuffer result = new StringBuffer();

     /**

      * 读省的信息

      * @param args

      * @throws Exception

      */

     public static void main(String[] args) throws Exception {

         String url = baseUrl + "index.html";

         //如果需要设置代理

         //initProxy("10.10.13.200", "80");

         String str = getContent(url).toUpperCase();

         String[] arrs = str.split("<A");

         for (String s : arrs) {

             if (s.indexOf("HREF") != -1 && s.indexOf(".HTML") != -1) {

                 String a = s.substring(7, s.indexOf("'>"));

                 String name = s.substring(s.indexOf("'>")+2, s.indexOf("<BR/>"));

                 System.out.println(name);

                 if(!"云南省".equals(name)){//这行代码代表只抓取云南省

                     continue;

                 }

                 FileWriter fw = new FileWriter(new File("c:/"+name+".html"));

                 BufferedWriter bw = new BufferedWriter(fw);

                 bw.write("<html><head><meta http-equiv='Content-Type' content='text/html; charset=utf-8' /></head><body><table border='1' bordercolor='#000000' style='border-collapse:collapse'><tr><td>代码</td><td>省</td><td>市</td><td>县</td><td>镇</td><td>城乡分类</td><td>村/街道</td></tr>");

                 bw.newLine();

                 bw.write("<tr><td></td><td>");

                 bw.write(name);

                 bw.write("</td><td></td><td></td><td></td><td></td><td></td></tr>");

                 bw.newLine();

                 System.out.println("爬取:"+name);

                 readShi(a,bw);

                 bw.newLine();

                 bw.write("</table></body></html>");

                 bw.flush();

                 bw.close();

             }

         }

     }

     /**

      * 读市的数据

      * @param list

      * @throws Exception

      */

     public static void readShi(String url,BufferedWriter bw) throws Exception{

         String content = getContent(baseUrl+url).toUpperCase();

         String[] citys = content.split("CITYTR");

         //'><TD><A HREF='11/1101.HTML'>110100000000</A></TD><TD><A HREF='11/1101.HTML'>市辖区</A></TD></td><TR CLASS='

         for(int c=1,len=citys.length; c<len; c++){

             String[] strs = citys[c].split("<A HREF='");

             String cityUrl = null;

             for(int si = 1; si<3; si++){

                 if(si==1){//取链接和编码

                     cityUrl = strs[si].substring(0, strs[si].indexOf("'>"));

                     String cityCode = strs[si].substring(strs[si].indexOf("'>")+2, strs[si].indexOf("</A>"));

                     bw.write("<tr><td>");

                     bw.write(cityCode);

                     bw.write("</td>");

                 }else{

                     bw.write("<td></td><td>");

                     bw.write(strs[si].substring(strs[si].indexOf("'>")+2, strs[si].indexOf("</A>")));

                     bw.write("</td><td></td><td></td><td></td><td></td></tr>");

                     System.out.println("爬取:"+strs[si].substring(strs[si].indexOf("'>")+2, strs[si].indexOf("</A>")));

                 }

             }

             bw.newLine();

             readXian(cityUrl.substring(0, cityUrl.indexOf("/")+1),cityUrl,bw);

         }

     }

     /**

      * 读县的数据

      * @param url

      * @throws Exception

      */

     public static void readXian(String prix,String url,BufferedWriter bw) throws Exception{

         String content = getContent(baseUrl+url).toUpperCase();

         String[] citys = content.split("COUNTYTR");

         for(int i=1; i<citys.length; i++){

             String cityUrl = null;

             //发现石家庄有一个县居然没超链接，特殊处理

             if(citys[i].indexOf("<A HREF='")==-1){

                 bw.write("<tr><td>");

                 bw.write(citys[i].substring(6, 18));

                 bw.write("</td>");

                 bw.write("<td></td><td></td><td>");

                 bw.write(citys[i].substring(citys[i].indexOf("</TD><TD>")+9,citys[i].lastIndexOf("</TD>")));

                 bw.write("</td><td></td><td></td><td></td></tr>");

             }else{

                 String[] strs = citys[i].split("<A HREF='");

                 for(int si = 1; si<3; si++){

                     if(si==1){//取链接和编码

                         cityUrl = strs[si].substring(0, strs[si].indexOf("'>"));

                         String cityCode = strs[si].substring(strs[si].indexOf("'>")+2, strs[si].indexOf("</A>"));

                         bw.write("<tr><td>");

                         bw.write(cityCode);

                         bw.write("</td>");

                     }else{

                         bw.write("<td></td><td></td><td>");

                         bw.write(strs[si].substring(strs[si].indexOf("'>")+2, strs[si].indexOf("</A>")));

                         bw.write("</td><td></td><td></td><td></td></tr>");

                     }

                 }

             }

             bw.newLine();

             if(null!=cityUrl){

                 readZhen(prix,cityUrl,bw);

             }

         }

     }

     /**

      * 读镇的数据

      * @param url

      * @throws Exception

      */

     public static void readZhen(String prix,String url,BufferedWriter bw) throws Exception{

         String content = getContent(baseUrl+prix+url).toUpperCase();

         String myPrix = (prix+url).substring(0, (prix+url).lastIndexOf("/")+1);

         String[] citys = content.split("TOWNTR");

         for(int i=1; i<citys.length; i++){

             String[] strs = citys[i].split("<A HREF='");

             String cityUrl = null;

             for(int si = 1; si<3; si++){

                 if(si==1){//取链接和编码

                     cityUrl = strs[si].substring(0, strs[si].indexOf("'>"));

                     String cityCode = strs[si].substring(strs[si].indexOf("'>")+2, strs[si].indexOf("</A>"));

                     bw.write("<tr><td>");

                     bw.write(cityCode);

                     bw.write("</td>");

                 }else{

                     bw.write("<td></td><td></td><td></td><td>");

                     bw.write(strs[si].substring(strs[si].indexOf("'>")+2, strs[si].indexOf("</A>")));

                     bw.write("</td><td></td><td></td></tr>");

                 }

             }

             bw.newLine();

             readCun(myPrix,cityUrl,bw);

         }

     }

     /**

      * 读村/街道的数据

      * @param url

      * @throws Exception

      */

     public static void readCun(String prix,String url,BufferedWriter bw) throws Exception{

         String content = getContent(baseUrl+prix+url).toUpperCase();

         String[] citys = content.split("VILLAGETR");

         for(int i=1; i<citys.length; i++){

             String[] strs = citys[i].split("<TD>");

             bw.write("<tr><td>");

             bw.write(strs[1].substring(0, strs[1].indexOf("</TD>")));

             bw.write("</td>");

             bw.write("<td></td><td></td><td></td><td></td>");

             bw.write("<td>");

             bw.write(strs[2].substring(0, strs[2].indexOf("</TD>")));

             bw.write("</td><td>");

             bw.write(strs[3].substring(0, strs[3].indexOf("</TD>")));

             bw.write("</td></tr>");

         }

     }

     //设置代理

     public static void initProxy(String host, String port) {

         System.setProperty("http.proxyType", "4");

         System.setProperty("http.proxyPort", port);

         System.setProperty("http.proxyHost", host);

         System.setProperty("http.proxySet", "true");

     }

     //获取网页的内容

     public static String getContent(String strUrl) throws Exception {

         try {

             URL url = new URL(strUrl);

             BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream(),Charset.forName(CHARSET)));

             String s = "";

             StringBuffer sb = new StringBuffer("");

             while ((s = br.readLine()) != null) {

                 sb.append(s);

             }

             br.close();

             return sb.toString();

         } catch (Exception e) {

             System.out.println("can't open url:"+strUrl);

             throw e;

         }

     }

 }

运行后获取的文件如下：

各位可以根据自己的需求修改生成的文件的格式，或者直接将结果插入自己的数据库皆可。

使用java爬取国家统计局的12位行政区划代码的更多相关文章

Java爬取同花顺股票数据（附源码）
最近有小伙伴问我能不能抓取同花顺的数据,最近股票行情还不错,想把数据抓下来自己分析分析.我大A股,大家都知道的,一个概念火了,相应的股票就都大涨. 如果能及时获取股票涨跌信息,那就能在刚开始火起来的时 ...
Java爬取先知论坛文章
Java爬取先知论坛文章 0x00 前言上篇文章写了部分爬虫代码,这里给出一个完整的爬取先知论坛文章代码. 0x01 代码实现 pom.xml加入依赖: <dependencies> & ...
Java 爬取 51job 数据 WebMagic实现
Java 爬取 51job 数据一.项目Maven环境配置相关依赖 jar 包配置 <parent> <groupId>org.springframework.boot&l ...
Java中取小数点后两位(四种方法)
摘自http://irobot.iteye.com/blog/285537 Java中取小数点后两位(四种方法) 一 Long是长整型,怎么有小数,是double吧 java.text.D ...
MinerHtmlThread.java 爬取页面线程
MinerHtmlThread.java 爬取页面线程 package com.iteye.injavawetrust.miner; import org.apache.commons.logging ...
MinerConfig.java 爬取配置类
MinerConfig.java 爬取配置类 package com.iteye.injavawetrust.miner; import java.util.List; /** * 爬取配置类 * @ ...
Java爬取网络博客文章
前言近期本人在某云上购买了个人域名,本想着以后购买与服务器搭建自己的个人网站,由于需要筹备的太多,暂时先搁置了,想着先借用GitHub Pages搭建一个静态的站,搭建的过程其实也曲折,主要是域名地 ...
Java爬取校内论坛新帖
Java爬取校内论坛新帖为了保持消息灵通,博主没事会上上校内论坛看看新帖,作为爬虫爱好者,博主萌生了写个爬虫自动下载的想法. 嗯,这次就选Java. 第三方库准备 Jsoup Jsoup是一款比较好 ...
Java爬取B站弹幕 —— Python云图Wordcloud生成弹幕词云
一 . Java爬取B站弹幕弹幕的存储位置如何通过B站视频AV号找到弹幕对应的xml文件号首先爬取视频网页,将对应视频网页源码获得就可以找到该视频的av号aid=8678034 还有弹幕序号, ...

随机推荐

mysql 连接出错 'mysqladmin flush-hosts'
本文章转载于: http://blog.itechol.com/space-33-do-blog-id-5670.html 求助QQ:499628121 环境说明: 内网测试服务器19 ...
取消SVN版本号控制的bash脚本
原理非常easy,递归删除当前文件夹下全部的 .svn 文件. 把 .svn 换成 .git 就可以用于删除 git 控制
INDY10 IDHTTPSERVER返回中文不乱码
INDY10 IDHTTPSERVER返回中文不乱码 procedure TynHttpServer.CommandGet(AContext: TIdContext; ARequestInfo: TI ...
Windows下编译memcached-1.4.5(32bit和64bit)
1.简介 Memcached 是一个高性能的分布式内存对象缓存系统.它通过将数据缓存在内存中来减少对数据库和文件系统的访问,减轻数据库及操作系统的负担,提高应用系统的速度. 目前已经很多系统应用了me ...
Android之zip包换肤(极力推荐)
转自:http://www.eoeandroid.com/thread-102536-1-1.html 直接上图,以图为证,哈哈第一图为原始的皮肤:<ignore_js_op> 第二种为 ...
Android图片加载框架最全解析（五），Glide强大的图片变换功能
大家好,又到了学习Glide的时间了.前段时间由于项目开发紧张,再加上后来又生病了,所以停更了一个月,不过现在终于又可以恢复正常更新了.今天是这个系列的第五篇文章,在前面四篇文章的当中,我们已经学习了 ...
[Ubuntu] ubuntu的tty下挂载移动硬盘拷贝数据
转载:http://blog.csdn.net/langb2014/article/details/51567460 更换CUDA好多人都更换成功了,我却失败了,然后电脑最后进不了界面了,只有tty端 ...
C++常用排序法、随机数
C++常用排序法研究 2008-12-25 14:38 首先介绍一个计算时间差的函数,它在<time.h>头文件中定义,于是我们只需这样定义2个变量,再相减就可以计算时间差了. 函数开头加 ...
Objective-C：OC内部可变对象和不可变对象的深(复制)拷贝问题思考：
OC内部:可变对象和不可变对象的深(复制)拷贝问题思考: 不可变对象: 例如NSString对象,因为NSString对象是常量字符串,所以,不可以更改其内容,但是可以修改指向该字符串的指针指向 ...
Java://Comparator、Comparable的用法(按照要求将set集合的数据进行排序输出):
import java.util.ArrayList; import java.util.Collections; import java.util.Comparator; //comparator. ...

使用java爬取国家统计局的12位行政区划代码

使用java爬取国家统计局的12位行政区划代码的更多相关文章

随机推荐

热门专题