目前NBS上有2015-2018四个年度的代码信息,写一个控制台程序爬一下县级行政区下的代码. 使用HttpWebRequest+HttpWebResponse获取html,使用HtmlAgilityPack类库解析HTML. 使用POST请求,请求头带Cookie信息,否则会被反爬机制挡死,返回“请开启JavaScript并刷新该页”. 县级URL Request获取数据的同时记录Response的Cookie信息,在请求镇级数据时,请求头发送此cookie. “省-地-县-乡 ”与“省-县(…
前言: 本文基于j2ee的原始url进行都写,解析指定内容时也是使用很傻的形式去查找指定格式的字符串来实现的. 更优雅的方式是可以使用apache的HttpClient和某些文档模型将HTML字符串构建成doc来进行解析. 目前已经修改代码适配最新的2015年的抓取. 爬取的原因:统计局网站提供的页面并按照:省-市-县-镇-村   这样的层次关系来组织页面,人工去获取所有的代码工作量大而繁琐,遂有了下面很粗糙的代码 代码如下: import java.io.BufferedReader; imp…
本文代码实现的功能是省市区三级联动下拉列表,纯Javascript,网上已有很多这方面的代码.但是作为一个新手,这是我的第一篇CSDN博客,发此文的目的主要是学习交流,希望看到的朋友发现有什么不对的地方批评指正一下.整体的实现思路是:1.创建一个"place类",给这个类增加"地名","地区编码"等属性,增加"返回代表省的前两位数字","返回代表市的前四位数字","判断地区类型"等方法:…
Python爬虫 - 爬取百度html代码前200行 - 改进版,  增加了对字符串的.strip()处理 源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 # urllib是用于获取网络资源的库,python3自带 # 此处的request是由Request类创建的一个实例对象 import urllib.request # 调用request对象的urlopen()方法 , 传入url参数 file = urllib.request.urlopen…
UserWarning: No parser was explicitly specified, so I'm using the best available HTML parser for this system ("html5lib"). This usually isn't a problem, but if you run this code on another system, or in a different virtual environment, it may us…
字段:regioncode //行政区划代码  regionname //行政区划名称 pcode //行政区划上一级代码 [{ "REGIONCODE": "110000", "PCODE": "", "REGIONNAME": "北京市" }, { "REGIONCODE": "110100", "PCODE": "…
一.爬取百度页面代码写入到文件 代码示例: from urllib.request import urlopen #导入urlopen包 url="http://www.baidu.com" #需要爬取网页的网址 resp=urlopen(url) with open("mybaidu.html",mode="w",encoding="utf-8") as f: #encoding="utf-8"防乱码 f…
在很多项目里面,字典管理是必备的项目模块,而这个又是比较通用的功能,因此可以单独做成一个通用字典管理,例如这个模块,可以通过集成的方式,使用在我的<Winform开发框架>.<WCF开发框架>.<混合式开发框架>中,这样可以避免代码的重复维护管理,对企业来说,也可以更好管理核心的代码,实现统一的版本更替.通用的字典管理模块,主要包括了字典类型的管理.字典数据的管理,另外,为了方便,还可以加入批量添加数据的功能,以便更适合实际使用场景,加快字典数据的快速录入.借着这个机会…
工作中,再次需要python,发现python用得好 ,真的可以节省很多人力,先说我的需求,需要做一个类似像支付宝添加收货地址时,选择地区的功能,需要详细到街道信息,也就是4级联动,如右图.首先需要的就是级联的数据,许是百度能力太差,找不到想要的,或者想要的需要积分才能下载,没有积分,只能干巴巴看着,好无奈,想起国家统计局有这个,以前在那里下载过,是一个表格,现在也忘记放哪里了,在它的官网找了好久,都没找到,后来是如何找到这个链接的也忘记了:http://www.stats.gov.cn/tjs…
数据来源(国家统计局):http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/ 对数据进行的特殊处理: 将直辖市中的 “市辖区” 与 “县” 合并到区域 将 “省直辖县级行政区划” 与 “自治区直辖县级行政区划” 规划到市级或者地区级 去掉所有 “市辖区” 数据 将海南省三沙市下的“中沙群岛的岛礁及其海域”修改为“中沙群岛” (主要是为了获取地址信息,无法通过地图API获取“中沙群岛的岛礁及其海域”位置信息) 下载数据↓↓↓…