百度地图点集文档使用python的re模块处理成json的相关写法
这个实在不好起名字。写这个还不是因为被渣度坑的不要不要的。为什么说他坑呢。参考一下这两个截图的txt文档:

文档资源下载地址: http://lbsyun.baidu.com/index.php?title=open/dev-res
或 http://lbsyun.baidu.com/index.php?title=webapi/place-suggestion-api
不知道是否看出坑的地方在哪里(请参考官方示例 http://echarts.baidu.com/demo.html#map-polygon):
1.js格式的数据不做格式化。这个我勉强可以理解。但是百度地图的demo里面使用的数据可不是这样的。所以这份文件不处理就没*用。至于这个js处理的坑点晚些再说
2.看看右边那个文档。不只是百度,从主要渠道下载的全国行政区划明细列表,都是会对于行政单位加上行政级别——例如北京市,上海市。而不是北京,上海。
3.附上官方示例上的接口API内容:

不多吐槽了。槽点实在太多。
那么进入正题,老样子,先上代码。
代码中有段非re处理的部分,用re的话大概只能写成这样。因为sub模块替换时不支持通配。

完整代码如下:
import re
f = open('D:\\Users\\50255\\Desktop\\maplist.txt', encoding='utf-8')
txt = f.read()
# pattern = re.compile(r'"\w{2,6}"|\d+\W\d+\W\d+\W\d+')
# result = re.findall(pattern, txt)
def test_split(txt, string):
if type(txt) is not str:
txt = ''.join(txt)
txt = re.split(string, txt)
txt = ''.join(txt)
return txt
def test_replace(txt, r, f):
if type(txt) is not str:
txt = ''.join(txt)
txt = re.sub(r, f, txt)
txt = ''.join(txt)
return txt
txt = test_replace(txt, r'{n:"', r'{"')
txt = test_replace(txt, r',g:"', r',"')
txt = test_replace(txt, r'\|.{1,2}"}', r'"}')
txt = re.findall(r'{"\w+",.{1,30}\d\d"}', txt)
txt = test_replace(txt, r'{"', r'"')
txt = test_replace(txt, r'","', r'":[')
txt = test_replace(txt, r'"}', r'],\n')
txt = test_replace(txt, r'":', r'市":')
txt = test_replace(txt, r'市市', r'市')
txt = test_replace(txt, r'区市', r'区')
txt = test_replace(txt, r'州市', r'州')
_txt = list(txt)
for i in range(len(_txt)):
if _txt[i-1] == '"' and _txt[i+1] == '州':
_txt[i+1] = '州市'
txt = ''.join(_txt)
print(txt)
h = open('D:\\Users\\50255\\Desktop\\maplist2.txt', mode='w', encoding='utf-8')
h.write(txt)
因为只是用了一次。所以没有对上面那一堆replace的效率优化。优化的部分只有截图那一块,那个效率实在有点看不下去。
通过内容可以看出需要替换掉的部分。而且为了保证数据的正确处理。按以下步骤执行脚本:
0.初始化
1.去除需要的数据中的键值命名 --- n: g:
2.去除数据中不知道代表什么分类的 |12
3.取出需要的,括号内的数据
4.将数据格式化为目标样式
5.给数据加上行政区划级别
6.对于特殊的城市名称进行处理
7.输出结果
----------------------------------
百度的这份文档,绝对是为了展现程序员的核心价值。
所以你不能用文本编辑器一次性解决这个问题。
百度地图点集文档使用python的re模块处理成json的相关写法的更多相关文章
- 百度地图api文档实现任意两点之间的最短路线规划
两个点之间的路线是使用“Marker”点连接起来的,目前还没找到改变点颜色的方法,测试过使用setStyle没有效果. <html><head> <meta http-e ...
- 利用python将excel数据解析成json格式
利用python将excel数据解析成json格式 转成json方便项目中用post请求推送数据自定义数据,也方便测试: import xlrdimport jsonimport requests d ...
- 必应地图api文档,微软必应地图web开发版详解,可以在国内使用国外地图
最近,公司项目要求在页面中嵌入地图,需求还算简单,但是由于必须具备响应式(主要是pc和移动端),而且由于公司业务是全球性的,要支持国外地点搜索.考虑到百度,腾讯,高德等等国内地图无法显示国外数据,谷歌 ...
- [同步到 MaixPy3 文档] 使用 Python 编程入门开源硬件项目
本文是给有一点 Python 基础但还想进一步深入的同学,有经验的开发者建议跳过. 前言 在写这篇案例系列的时候 junhuanchen 期望能够引导用户如何成为专业的开发者,不是只会调用代码就好,所 ...
- Silverlight类百度文库在线文档阅读器
百度文库阅读器是基于Flash的,用Silverlight其实也可以做. 我实现的在线阅读器可以应用于内网文档发布,在线阅览审批等.没有过多的堆积功能,专注于核心功能.主要有以下特性: 1. 基于XP ...
- Silverlight类百度文库在线文档阅读器(转)
百度文库阅读器是基于Flash的,用Silverlight其实也可以做. 我实现的在线阅读器可以应用于内网文档发布,在线阅览审批等.没有过多的堆积功能,专注于核心功能.主要有以下特性: 1. 基于XP ...
- word文档的python解析
主要两块,第一个是文件类型的转换,第二个是用docx包去对word文档中的table进行parse 1. 文件格式装换 因为很多各种各样的原因,至今还有一些word文档是doc的格式存的,对于这种,如 ...
- 地图API文档
目录 腾讯地图API 2 1.API概览... 2 1.1 WebService API(官网注明是beta版本,可能不稳定,慎用):... 2 1.2 URL API:... 2 1.3 静态图AP ...
- C# 读取ini文件 百度问问学习文档
C# 读取ini文件 10 有多个section,现想读取整个ini文件和指定section下所有内容 补充: 发布答案可以,请对准题目啊,我不要指定节点的内容,我知道!我要的是读取指定区域的内容,假 ...
随机推荐
- 深度学习之tensorflow (一)
一.TensorFlow简介 1.TensorFlow定义: tensor :张量,N维数组 Flow : 流,基于数据流图的计算 TensorFlow : 张量从图像的一端流动到另一端的计算 ...
- 设计模式的征途—21.迭代器(Iterator)模式
我们都用过电视机遥控器,通过它我们可以进行开机.关机.换台.改变音量等操作.我们可以将电视机看做一个存储电视频道的集合对象,通过遥控器可以对电视机中的频道集合进行操作,例如返回上一个频道.跳转到下一个 ...
- Logstash&Redis&Elasticsearch&Kibana
[搭建] 一个很好的提示,强调版本的一致性 http://www.cnblogs.com/yjf512/p/4194012.html http://michael.bouvy.net/blog/en/ ...
- Kaggle实战之一回归问题
0. 前言 1.任务描述 2.数据概览 3. 数据准备 4. 模型训练 5. kaggle实战 0. 前言 "尽管新技术新算法层出不穷,但是掌握好基础算法就能解决手头 90% 的机器学习问题 ...
- Kaggle Challenge简要介绍
https://en.wikipedia.org/wiki/Kaggle 以下内容,直接摘自维基百科,主要起到一个记录的作用,提醒自己有时间关注关注这个竞赛. Kaggle is a platform ...
- javascript面向对象编程(OOP)——汇总
目录 一.JS的解析与执行过程 预处理阶段 执行阶段 二.作用域 块作用域 函数作用域 动态作用域 词法作用域 三.闭包 什么是闭包 闭包的好处 四.类与对象 对象 类 原型(prototype) t ...
- laravel5.3统计 withCount()方法的使用
在laravel5.3之后可以使用withCount()这个方法. 注意:一定要是5.3版本之后,5.2和5.1都会报方法未定义 举个栗子: App\Post::withCount('comments ...
- linux网络、性能相关命令
netstat -tunpl #查看进程列表 top #查看系统资源统计 服务器速度测试 ping 123.57.92.9 -t 每一个被发送出的IP信息包都有一个TTL域,该域被设置为一个较高的数值 ...
- Unity塔防游戏开发
Unity3D塔防开发流程 配置环境及场景搭建编程语言:C#,略懂些许设计模式,如果不了解设计模式,BUG More开发工具:Unity3D编辑器.Visual Studio编译器开发建议:了解Uni ...
- 基于MySQL + Node.js + Leaflet的离线地图展示,支持百度、谷歌、高德、腾讯地图
1. 基本说明 本项目实现了离线展示百度.谷歌.高德.腾讯地图.主要功能如下: 实现了地图瓦片图下载.存储.目前支持存储至MySQL Node.js服务调用MySQL中的瓦片图 Leaflet展示地图 ...