java利用爬虫技术抓取(省、市(区号\邮编)、县)数据

近期项目须要用到城市的地址信息，但从网上下载的xml数据没有几个是最新的地址信息.....数据太老，导致有些地区不全。所以才想到天气预报官网特定有最新最全的数据。贴出代码，希望能给有相同困惑的朋友。降低一些时间。

	/**

	 * @param var  城市名称

	 * @return	string数组。0表示邮编	1表示区号

	 */

	@SuppressWarnings("deprecation")

	private String[] getZipCode(String var) {

		String[] code = new String[2];

		String zipCode_S = "邮编：";

		String zipCode_E = " ";

		String qhCode_S = "区号：";

		String qhCode_E = "</td>";

		String encode = URLEncoder.encode(var);

		try {

			URL url = new URL("http://www.ip138.com/post/search.asp?

area="

					+ encode + "&action=area2zone");

			BufferedReader br = new BufferedReader(new InputStreamReader(

					url.openStream(), "GBK"));

			for (String line; (line = br.readLine()) != null;) {

				int zipNum = line.indexOf(zipCode_S);

				if (zipNum > 1) {

					String str = line.substring(zipNum + zipCode_S.length());

					str = str.substring(0, str.indexOf(zipCode_E));

					code[0] = str;

				}

				int qhNum = line.indexOf(qhCode_S);

				if(qhNum > 1)

				{

					String str = line.substring(qhNum + qhCode_S.length());

					str = str.substring(0, str.indexOf(qhCode_E));

					code[1] = str;

					break;

				}

			}

		} catch (Exception e) {

			System.out.println(var +"\t错误"+e.toString());

		}

		return code;

	}

	/**

	 * 	主程序

	 * @throws Exception

	 */

	@Test

	public void main() throws Exception

	{

		//1:获取全部省份

		TreeMap<String,String> provincesBuffer = getAddressInfo("http://www.weather.com.cn//data/city3jdata/china.html");

		Element prcEle = DocumentHelper.createElement("Provinces");

		//2：依据省份获取城市

		Element citysEle = DocumentHelper.createElement("Citys");

		//3：依据省份城市获取区、县

		Element distEle = DocumentHelper.createElement("Districts");

		int p = 1;

		int c = 1;

		int d = 1;

		for(Entry<String, String> prc : provincesBuffer.entrySet())

		{

			Element province = DocumentHelper.createElement("Province");

			province.addAttribute("ID",""+(p)).addAttribute("ProvinceName", prc.getValue()).addText(prc.getValue());

			//获取邮政编号

			TreeMap<String,String> cityBuffer = getAddressInfo("http://www.weather.com.cn/data/city3jdata/provshi/"+prc.getKey()+".html");

			for(Entry<String, String> citys : cityBuffer.entrySet())

			{

				Element city = DocumentHelper.createElement("City");

				String[] zipCode = getZipCode(citys.getValue());

				if(zipCode[0]==null||zipCode[1]==null)

					System.out.println("缺少"+citys.getValue()+"邮政或区号！");

				city.addAttribute("ID", ""+c).addAttribute("CityName", citys.getValue()).addAttribute("PID",p+"").addAttribute("ZipCode", zipCode[0]).addAttribute("AreaCode", zipCode[1]).addText(citys.getValue());

				TreeMap<String, String> distsBuffer = getAddressInfo("http://www.weather.com.cn/data/city3jdata/station/"+prc.getKey()+""+citys.getKey()+".html");

				for(Entry<String, String> dists : distsBuffer.entrySet())

				{

					String value = dists.getValue();

					if(value.equals(citys.getValue()))

						continue;

					Element district = DocumentHelper.createElement("District");

					district.addAttribute("ID",""+(d++)).addAttribute("DistrictName", dists.getValue()).addAttribute("CID", c+"").addText(dists.getValue());

					distEle.add(district);

				}

				citysEle.add(city);

				c++;

			}

			prcEle.add(province);

			p++;

		}

		//4：保存到本地

		saveInf("f:\\Provinces.xml",prcEle);

		saveInf("f:\\Citys.xml",citysEle);

		saveInf("f:\\Districts.xml",distEle);

	}

	/**	保存xml

	 * @param savePath  xml保存路径

	 * @param varEle	根元素

	 */

	private void saveInf(String savePath, Element varEle) {

		Document varDoc = DocumentHelper.createDocument();

		varDoc.add(varEle);

		try {

			XMLWriter xmlwri = new XMLWriter(new FileOutputStream(new File(savePath)), new OutputFormat("\t", true, "UTF-8"));

			xmlwri.write(varDoc);

			xmlwri.close();

		} catch (Exception e) {

			System.out.println(savePath +"失败，原因例如以下");

			throw new RuntimeException(e);

		}

	}

	/**

	 * 	获取信息

	 * @param address  url路径

	 * @return	key :信息编号	value：信息名称

	 */

	private TreeMap<String, String> getAddressInfo(String address) {

		TreeMap<String,String> china = new TreeMap<String, String>();

		BufferedReader br = null;

		String buffer = null;

		try {

			URL url = new URL(address);

			br = new BufferedReader(new InputStreamReader(url.openStream(),"UTF-8"));

			buffer = br.readLine();

		} catch (Exception e) {

			System.out.println("错误："+e.getMessage());

		}finally{

			if(br != null)

				try {

					br.close();

				} catch (IOException e) {

					e.printStackTrace();

				}

		}

		if(buffer==null)

			return china;

		buffer = buffer.replaceAll("\\{|\\}|\"","");

		String[] splits = buffer.split(",");

		for(String sp : splits)

		{

			String[] split = sp.split(":");

			if(split!=null && split.length == 2)

				china.put(split[0], split[1]);

			else

				System.out.println(address);

		}

		buffer = null;

		return china;

	}

下载xml数据

java利用爬虫技术抓取(省、市(区号\邮编)、县)数据的更多相关文章

java网络爬虫----------简单抓取慕课网首页数据
© 版权声明:本文为博主原创文章,转载请注明出处一.分析 1.目标:抓取慕课网首页推荐课程的名称和描述信息 2.分析:浏览器F12分析得到,推荐课程的名称都放在class="course- ...
Java广度优先爬虫示例(抓取复旦新闻信息)
一.使用的技术这个爬虫是近半个月前学习爬虫技术的一个小例子,比较简单,怕时间久了会忘,这里简单总结一下.主要用到的外部Jar包有HttpClient4.3.4,HtmlParser2.1,使用的开发 ...
【JAVA系列】Google爬虫如何抓取JavaScript的？
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[JAVA系列]Google爬虫如何抓取Java ...
Pyhton爬虫实战 - 抓取BOSS直聘职位描述和数据清洗
Pyhton爬虫实战 - 抓取BOSS直聘职位描述和数据清洗零.致谢感谢BOSS直聘相对权威的招聘信息,使本人有了这次比较有意思的研究之旅. 由于爬虫持续爬取 www.zhipin.com 网 ...
Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
使用htmlparse爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
Golang分布式爬虫：抓取煎蛋文章|Redis/Mysql|56,961 篇文章
--- layout: post title: "Golang分布式爬虫:抓取煎蛋文章" date: 2017-04-15 author: hunterhug categories ...
使用htmlparser爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
【转】Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...

随机推荐

SPOJ QTREE Query on a tree VI
You are given a tree (an acyclic undirected connected graph) with n nodes. The tree nodes are number ...
HTML5 录音的踩坑之旅
开篇闲扯前一段时间的一个案子是开发一个有声课件,大致就是通过导入文档.图片等资源后,页面变为类似 PPT 的布局,然后选中一张图片,可以插入音频,有单页编辑和全局编辑两种模式.其中音频的导入方式有两 ...
luogu 3407 散步
题目链接题意按从左到右的顺序给出数轴上的一群人,有人向左走,有人向右走,一旦两人相遇就会停在当前位置,后来走到该位置的人也会停在该位置.问经过一段时间这些人分别在什么位置. 思路可以将这些人分为 ...
linux 多进程绑定问题
硬件中断发生频繁,是件很消耗 CPU 资源的事情,在多核 CPU 条件下如果有办法把大量硬件中断分配给不同的 CPU (core) 处理显然能很好的平衡性能.现在的服务器上动不动就是多 CPU 多核. ...
AC日记——[Ahoi2009]Seq 维护序列seq bzoj 1798
1798 思路: 维护两个标记: 乘:m 和加:a 先下放乘,再下放加: 下放乘的时候要把子节点的加一块乘了: 开long long: 来,上代码: #include <cstdio> ...
爬虫学习笔记（三）requests模块使用
前面在说爬虫原理的时候说了,就写代码自动化的获取数据,保存下来数据,那怎么写代码来请求一个网址,获取结果呢,就得用requests模块了. 这篇博客说一下requests模块的使用,requests模 ...
2018年东北农业大学春季校赛 B wyh的矩阵【找规律】
链接:https://www.nowcoder.com/acm/contest/93/B来源:牛客网题目描述给你一个n*n矩阵,按照顺序填入1到n*n的数,例如n=5,该矩阵如下 1 2 3 4 ...
使用企业微信的API给指定用户发送消息
上个月比较忙,等不忙了继续写点基础教程(五一还在高铁上写项目在).因为公司的原因,自己学习了点JavaWeb的知识,重新写了一个简单的后台管理,用于记录用户注册信息的.其中有这样的一个要求,就是在用户 ...
gitbook简单安装和使用
1.gitbook是用来写书的,支持markdown等 2.在线写 gitbook最新版地址:https://www.gitbook.com/account/ 免费用户只能有一个public和一个pr ...
NOIP 2014 D2T3 解方程 Hash大法好
题目大意:给定高次方程an*x^n+...+a1*x^1+a0*x^0=0 求[1,m]区间内有多少个整数根 ai<=10^10000.m<=100W 懒得高精,考场上写的long dou ...

java利用爬虫技术抓取(省、市(区号\邮编)、县)数据

java利用爬虫技术抓取(省、市(区号\邮编)、县)数据的更多相关文章

随机推荐

热门专题