linux环境下搭建osm_web服务器四（对万国语的地名进行翻译和检索）：

对万国语的地名进行翻译和检索

经过前三篇的调试，已经有了一个完整的Map可以浏览，我们痛苦的世界范围数据下载、导入过程也结束了。要提醒一下的是，鉴于网速，不要下载 planetosm.lastest 文件，因为这个文件每周更新，万一一周下不完，就over了。

当然了，导入后，别忘了

sudo touch /var/lib/mod_tile/planet-import-complete
sudo chown www-data /var/lib/mod_tile/planet-import-complete

设置时间戳哦！

导入后，只有中国、日本有些中文字符，其他国家都是鸟语，必须进行汉化。用PostgreSQL count 一下，name 字段不为null
的条目太多了，利用在线的翻译API似乎不现实。我们通过下载字典来进行本地自动匹配与翻译。字典在http://download.csdn.net/detail/goldenhawking/4556453,
导入后，含有17万个地名翻译的表如下面所示

由于place_name 里的地名有不规范的表示，比如括号中的曾用名、用逗号分隔的等效名等情况，不能直接把地名表与planet_osm_roads 、planet_osm_polygon 、planet_osm_line、planet_osm_point 四张表的name字段做 like 或者 = 的换算。同样，即使是做正则式的匹配，也要考虑到比如 XXXX 与 XX'XX (YYYY) 的情况，即原本地名已经包含阿拉伯语与英语两种语言的情况。

为此，写一个程序，进行匹配，提前把地名进行标准化。其算法过程是：

读取planet_osm_roads 、planet_osm_polygon 、planet_osm_line、planet_osm_point四张表里 name is not null 并多于1个字符的地名，进行简化，清除括号、非拉丁、斯拉夫字符，而后与经过规范化的 place_name 进行匹配。为了存储独立的中文字段，在四张表尾部追加了一个trans_name_chs的 text 字段，以便存储纯粹的中文地名，供搜索用。

[sql] view plain copy

ALTER TABLE planet_osm_point ADD COLUMN trans_name_chs text;
ALTER TABLE planet_osm_line ADD COLUMN trans_name_chs text;
ALTER TABLE planet_osm_polygon ADD COLUMN trans_name_chs text;
ALTER TABLE planet_osm_roads ADD COLUMN trans_name_chs text;

算法伪代码表示:

[cpp] view plain copy

void Match(unicode TableName)
{
for_each (record in TableName where 长度>3)
{
unicode 地名 = record->name;
//清除首尾空格
TrimSpaces(地名);
//只保留两类字符，根据字符的unicode取值范围筛选
10. unicode 词干 = FilterChar (地名, new LanguageFilter({拉丁,斯拉夫}));
11.
12. //在翻译表中查找可能的翻译
13. unicodeList 可能结果集 = DatabaseSearch("规范化词干表","like %s%",词干);
14.
15. //对所有含有词干的可能结果，进行相似度排序,这里的策略是看看长度比例因子，
16. //比如 Shanghai 与 Shanghai City 为 8:13，与Shanghai 为 1:1 ，因此取 Shanghai
17.
18. unicode 最佳解=null;
19. double 最佳因子=0;
20.
21. for_each (unicode 可能解 in 可能结果集 where length(词干)/length(可能解)>0.6)
22. {
23. double 当前因子 = length(词干)/length(可能解);
24. if (当前因子>最佳因子)
25. {
26. 最佳解 = 可能解;
27. 最佳因子 = 当前因子;
28. if (最佳因子 == 1)
29. break;
30. }
31. }
32.
33. //刷新数据库
34. if (最佳因子 >0)
35. {
36. unicode 翻译结果 = 最佳解 + "(" + 地名 + ")";
37. UpdateTable(TableName, record->id, 翻译结果);
38. }
39. }

40. }

匹配过程大概需要1-2天，匹配完成后，翻译好的地名便存入了name字段中。渲染瓦片，看一看，主要的地名都OK啦

德国的

最后，为这些字段建立索引

[sql] view plain copy

CREATE INDEX idx_planet_osm_roads_name ON planet_osm_roads USING btree ("name") where name is not null;
CREATE INDEX idx_planet_osm_roads_trans_name_chs ON planet_osm_roads USING btree ("trans_name_chs") where trans_name_chs is not null;
CREATE INDEX idx_planet_osm_polygon_name ON planet_osm_polygon USING btree ("name") where name is not null;
CREATE INDEX idx_planet_osm_polygon_trans_name_chs ON planet_osm_polygon USING btree ("trans_name_chs") where trans_name_chs is not null;
CREATE INDEX idx_planet_osm_line_name ON planet_osm_line USING btree ("name") where name is not null;
CREATE INDEX idx_planet_osm_line_trans_name_chs ON planet_osm_line USING btree ("trans_name_chs") where trans_name_chs is not null;
CREATE INDEX idx_planet_osm_point_name ON planet_osm_point USING btree ("name") where name is not null;
CREATE INDEX idx_planet_osm_point_trans_name_chs ON planet_osm_point USING btree ("trans_name_chs") where trans_name_chs is not null;

全部搞定后，vacuum 一下，索引就可以立刻参与查询了，而且使用 FCGI 实现地名的检索就变得简单了。这里为了测试，直接用C写CGI程序。

程序实现两个功能，一个是根据地名检索旁边的GIS对象，另一个是根据坐标检索最近的地名。这里用到 PostGIS的 CoverBy 系列函数. CGI代码：

略

转载：http://blog.csdn.net/goldenhawking/article/details/7952303

linux环境下搭建osm_web服务器四（对万国语的地名进行翻译和检索）：的更多相关文章

linux环境下搭建osm_web服务器一（Postgresql配置及osm2pgsql原始数据导入）：
Postgresql配置及osm2pgsql原始数据导入 2012年,Ubuntu 12.04LTS发布,又一个长效支持版,我们又该更新OpenStreetMap服务器了,这次,将详细在博客中记录配置 ...
linux环境下搭建osm_web服务器二(Mapnik及apache2mod_tile配置)：
Mapnik及apache2mod_tile配置上一篇,我们配置好了PostgreSQL服务器,导入了测试数据.今天,我们来配置 mapnik2 + apache2 + mod_tile 的WMS服 ...
linux环境下搭建osm_web服务器三（Openlays和slippymap）：
Openlays和slippymap 上一步,我们已经有了自己的地图瓦片服务器,现在,开始实现SlippyMap啦! <1>下载释放OpenLayers到 www文件夹 SlippyMap ...
Windows和Linux环境下搭建SVN服务器
--------------------------Windows下搭建SVN服务器----------------------------- 一.安装SVN服务端软件包Setup-Subversi ...
linux环境下搭建solr服务器--单机版
前提需要在安装好jdk和tomcat,本人用的是jdk1.8+tomcat8.5+solr4.10. 第一步:安装linux.jdk.tomcat.(这步都是比较简单的,就不多说了) 第二步:把sol ...
在Linux 环境下搭建 JDK 和 Tomcat
在Linux 环境下搭建 JDK 和 Tomcat 参考地址:http://www.cnblogs.com/liulinghua90/p/4661424.html [JDK安装] 1.首先下载 ...
Linux环境下搭建禅道管理工具-包含软件资源
Linux环境下搭建禅道管理工具 1:百度云盘下载: 禅道--链接: https://pan.baidu.com/s/1Stu7nOZVIPO5TnpJWjWtiQ 提取码:dnik CentOs操 ...
ubuntu 14.04LTS 环境下搭建tftp服务器
花费我一整天的时间在 ubuntu 14.04LTS 环境下搭建tftp服务器,网上好多资料参差不齐,简单来说,TFTP(Trivial File Transfer Protocol),是一个基于UD ...
freeSSHD在windows环境下搭建SFTP服务器
freeSSHD在windows环境下搭建SFTP服务器 0 建议现在windows环境下安装cygwin,否则在windows环境下cmd模式使用不了sftp去连接,可以利用win scp去测试连接 ...

随机推荐

vim 编辑技巧
vi是linux下最常用的编辑器,vim是vi的加强版,本篇将介绍vim的一些快捷键和使用技巧,借鉴网上其他文章表示
git log 中文乱码的解决方案
设置 Git 支持 utf-8 编码在命令行下输入以下命令:$ git config --global core.quotepath false # 显示 status 编码$ git config ...
你一定想知道的关于FPGA的那些事
首先,如果您从未接触过FPGA(现场可编程门阵列),或者有过一点基础想要继续深入了解这个行业,在这里,会向您介绍FPGA,并且向您解释FPGA都能解决什么问题,如何解决这些问题,并讨论如何将设计进行优 ...
Hibernate学习2—Hibernate4 CRUD体验初步
接着上一节,工程结构: jar包没有变化: 一.HibernateUtil 封装: com.cy.util.HibernateUtil.java: package com.cy.util; impor ...
MySQL skills
复制 sysbench 监控调优
jQuery中this与$(this)的区别实例
<p><!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "<a hre ...
C++ 新特性-右值引用
作为最重要的一项语言特性,右值引用(rvalue references)被引入到 C++0x中.我们可以通过操作符“&&”来声明一个右值引用,原先在C++中使用“&”操作符声明 ...
关于标签的属性-<a>
标签的属性可以分成两个大类 1.系统属性名:例如 id class src这些都是系统里自带的 2.自定义属性名:可以根据使用的需要自行定义下面我们简短介绍一下<a>标签的使用 < ...
仅用CSS3创建h5预加载旋转圈
<head> <meta charset="UTF-8"> <title></title> <style type=" ...
JasperReport报表导出踩坑实录
写在最前面翻了翻博客,因为太忙,已经好久没认真总结过了. 正好趁着今天老婆出门团建的机会,记录下最近这段时间遇到的大坑-JasperReport. 六月份的时候写过一篇利用poi文件导入导出的小De ...

linux环境下搭建osm_web服务器四（对万国语的地名进行翻译和检索）：

linux环境下搭建osm_web服务器四（对万国语的地名进行翻译和检索）：的更多相关文章

随机推荐

热门专题