近期项目须要用到 城市的地址信息,但从网上下载的xml数据没有几个是最新的地址信息.....数据太老,导致有些地区不全。所以才想到天气预报官网特定有最新最全的数据。贴出代码,希望能给有相同困惑的朋友。降低一些时间。

	/**
* @param var 城市名称
* @return string数组。0表示邮编 1表示区号
*/
@SuppressWarnings("deprecation")
private String[] getZipCode(String var) {
String[] code = new String[2];
String zipCode_S = "邮编:";
String zipCode_E = " ";
String qhCode_S = "区号:";
String qhCode_E = "</td>";
String encode = URLEncoder.encode(var);
try {
URL url = new URL("http://www.ip138.com/post/search.asp? area="
+ encode + "&action=area2zone");
BufferedReader br = new BufferedReader(new InputStreamReader(
url.openStream(), "GBK"));
for (String line; (line = br.readLine()) != null;) {
int zipNum = line.indexOf(zipCode_S);
if (zipNum > 1) {
String str = line.substring(zipNum + zipCode_S.length());
str = str.substring(0, str.indexOf(zipCode_E));
code[0] = str;
}
int qhNum = line.indexOf(qhCode_S);
if(qhNum > 1)
{
String str = line.substring(qhNum + qhCode_S.length());
str = str.substring(0, str.indexOf(qhCode_E));
code[1] = str;
break;
}
}
} catch (Exception e) {
System.out.println(var +"\t错误"+e.toString());
}
return code;
} /**
* 主程序
* @throws Exception
*/
@Test
public void main() throws Exception
{
//1:获取全部省份
TreeMap<String,String> provincesBuffer = getAddressInfo("http://www.weather.com.cn//data/city3jdata/china.html");
Element prcEle = DocumentHelper.createElement("Provinces"); //2:依据省份获取城市
Element citysEle = DocumentHelper.createElement("Citys"); //3:依据省份城市获取区、县
Element distEle = DocumentHelper.createElement("Districts");
int p = 1;
int c = 1;
int d = 1;
for(Entry<String, String> prc : provincesBuffer.entrySet())
{
Element province = DocumentHelper.createElement("Province");
province.addAttribute("ID",""+(p)).addAttribute("ProvinceName", prc.getValue()).addText(prc.getValue());
//获取邮政编号
TreeMap<String,String> cityBuffer = getAddressInfo("http://www.weather.com.cn/data/city3jdata/provshi/"+prc.getKey()+".html");
for(Entry<String, String> citys : cityBuffer.entrySet())
{
Element city = DocumentHelper.createElement("City");
String[] zipCode = getZipCode(citys.getValue());
if(zipCode[0]==null||zipCode[1]==null)
System.out.println("缺少"+citys.getValue()+"邮政或区号!");
city.addAttribute("ID", ""+c).addAttribute("CityName", citys.getValue()).addAttribute("PID",p+"").addAttribute("ZipCode", zipCode[0]).addAttribute("AreaCode", zipCode[1]).addText(citys.getValue());
TreeMap<String, String> distsBuffer = getAddressInfo("http://www.weather.com.cn/data/city3jdata/station/"+prc.getKey()+""+citys.getKey()+".html");
for(Entry<String, String> dists : distsBuffer.entrySet())
{
String value = dists.getValue();
if(value.equals(citys.getValue()))
continue; Element district = DocumentHelper.createElement("District");
district.addAttribute("ID",""+(d++)).addAttribute("DistrictName", dists.getValue()).addAttribute("CID", c+"").addText(dists.getValue());
distEle.add(district);
}
citysEle.add(city);
c++;
}
prcEle.add(province);
p++;
}
//4:保存到本地
saveInf("f:\\Provinces.xml",prcEle);
saveInf("f:\\Citys.xml",citysEle);
saveInf("f:\\Districts.xml",distEle);
} /** 保存xml
* @param savePath xml保存路径
* @param varEle 根元素
*/
private void saveInf(String savePath, Element varEle) {
Document varDoc = DocumentHelper.createDocument();
varDoc.add(varEle);
try {
XMLWriter xmlwri = new XMLWriter(new FileOutputStream(new File(savePath)), new OutputFormat("\t", true, "UTF-8"));
xmlwri.write(varDoc);
xmlwri.close();
} catch (Exception e) {
System.out.println(savePath +"失败,原因例如以下");
throw new RuntimeException(e);
}
} /**
* 获取信息
* @param address url路径
* @return key :信息编号 value:信息名称
*/
private TreeMap<String, String> getAddressInfo(String address) {
TreeMap<String,String> china = new TreeMap<String, String>();
BufferedReader br = null;
String buffer = null;
try {
URL url = new URL(address);
br = new BufferedReader(new InputStreamReader(url.openStream(),"UTF-8"));
buffer = br.readLine();
} catch (Exception e) {
System.out.println("错误:"+e.getMessage());
}finally{
if(br != null)
try {
br.close();
} catch (IOException e) {
e.printStackTrace();
}
}
if(buffer==null)
return china; buffer = buffer.replaceAll("\\{|\\}|\"","");
String[] splits = buffer.split(",");
for(String sp : splits)
{
String[] split = sp.split(":");
if(split!=null && split.length == 2)
china.put(split[0], split[1]);
else
System.out.println(address);
}
buffer = null;
return china;
}

下载xml数据

java利用爬虫技术抓取(省、市(区号\邮编)、县)数据的更多相关文章

  1. java网络爬虫----------简单抓取慕课网首页数据

    © 版权声明:本文为博主原创文章,转载请注明出处 一.分析 1.目标:抓取慕课网首页推荐课程的名称和描述信息 2.分析:浏览器F12分析得到,推荐课程的名称都放在class="course- ...

  2. Java广度优先爬虫示例(抓取复旦新闻信息)

    一.使用的技术 这个爬虫是近半个月前学习爬虫技术的一个小例子,比较简单,怕时间久了会忘,这里简单总结一下.主要用到的外部Jar包有HttpClient4.3.4,HtmlParser2.1,使用的开发 ...

  3. 【JAVA系列】Google爬虫如何抓取JavaScript的?

    公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[JAVA系列]Google爬虫如何抓取Java ...

  4. Pyhton爬虫实战 - 抓取BOSS直聘职位描述 和 数据清洗

    Pyhton爬虫实战 - 抓取BOSS直聘职位描述 和 数据清洗 零.致谢 感谢BOSS直聘相对权威的招聘信息,使本人有了这次比较有意思的研究之旅. 由于爬虫持续爬取 www.zhipin.com 网 ...

  5. Python爬虫实战---抓取图书馆借阅信息

    Python爬虫实战---抓取图书馆借阅信息 原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息 前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...

  6. 使用htmlparse爬虫技术爬取电影网页的全部下载链接

    昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...

  7. Golang分布式爬虫:抓取煎蛋文章|Redis/Mysql|56,961 篇文章

    --- layout: post title: "Golang分布式爬虫:抓取煎蛋文章" date: 2017-04-15 author: hunterhug categories ...

  8. 使用htmlparser爬虫技术爬取电影网页的全部下载链接

    昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...

  9. 【转】Python爬虫:抓取新浪新闻数据

    案例一 抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...

随机推荐

  1. 用c#语言通过修改注册表改IE网页首页

    原文发布时间为:2009-04-19 -- 来源于本人的百度文章 [由搬家工具导入] string key = @"HKEY_CURRENT_USER\Software\Microsoft\ ...

  2. sql联合主键,用于多对多,关系映射

    如题.记录下. 复合主键,由多个字段共同确定一行信息 composite key, containing multi cols to fix one element.

  3. TP5 多条件whereOr查询

    问题背景:最近在用ThinkPHP 5开发项目的过程中,发现根据筛选条件做or查询的时候,连贯操作不可以使用where进行条件查询了. 首先列出一个user数据表的信息: uid uname grad ...

  4. 16Aspx.com-将15位身份证转换成18位

    //********************************************************************************* //将15位身份证转换成18位时 ...

  5. mysql查询练习题

    建库建表 a.建立一个公司数据库(gongsi)    CREATE DATABASE gongsi b.建立一张部门表(部门编号b_id,部门名称b_name) ,             其中b_ ...

  6. ASP.NET MVC验证所有属性是否合法

    1.实现代码: /// <summary> /// 验证所有属性是否合法 /// </summary> /// <param name="modelState& ...

  7. rpm安装与卸载命令

    linux删除目录(文件夹):rmdir 目录名(目录需非空):直接删除可用: rm -rf 目录名 ,不需考虑是否为空 SecureCRT上传文件:rz  ,下载文件:sz rpm 安装:rpm - ...

  8. JMeter 中Random 随机函数的使用

    场景:在做接口测试时,比如说要求用户的手机号码不允许重复,那此时可以通过Random 随机函数来解决此问题: 1.在JMeter 工具中,选择{选项-函数助手对话框-} 函数助手中选择 Random ...

  9. 3D立体显示技术原理与游戏应用历程简介 【转】

    本文来自 中关村ZOL 「3D 立体显示」可说是近来娱乐产业相当热门的话题,不但有好莱坞推出<阿凡达>等卖座 3D 立体电影,全球各大家电厂商也积极布局准备推出一系列支持 3D 立体显示的 ...

  10. 【温故知新】——HTML5重要知识点复习

    前言:本文是自己在学习课程中的课程笔记,这里用来温故知新的,并非本人原创. 一.HTML5新特性 —— 十个新特性:凌乱 (1)新的语义标签 (2)增强型表单(表单2.0) (3)音频和视频 (4)C ...