【汉字】转【pīnyīn】

引言

无意中看到了overtrue/pinyin这个项目，感觉很有意思，

这个项目做了这么一件事情：

将汉字转化为拼音

刚看到这里是不是觉得没什么难度，没什么意思？您不妨接着往下看。要是只是将汉字转为拼音好像

很容易就实现了，但是要是给转换之后的汉字带上音调呢，这样难度就很大了，因为汉字博大精深，

其中一方面就表现在多音字，同样一个字在不同的语句场景下，音调是不一样的。看到这里你在考

虑下如何处理？

这里我还是很佩服安正超（要是不了解他，不妨点进去看看，他

有好几个开源项目都非常棒）这位大神的，他的思路让我眼前一亮：

替换的时候首先将常用的词组替换了，比如短语、成语、常用的词语，这些词语替换的时候按照常

用程度由高到低排序。

接着对剩余的未被替换的汉字进行替换，这里直接按照所有汉字和拼音的映射，没有特定顺序。

如果是姓名，首先对姓氏进行一遍特定替换，姓氏的声调可能和常用的不一致。

除了项目的想法很棒之外，还有一个大难题要解决，就是收集词语，姓氏等，这里我直接使用了安正超的项目中的数据，再次也该写下安前辈。

我的这个项目可以说是很大程度上是安前辈的overtrue/pinyin项目的另一个版本。

设计

这个项目中会用到一个数据结构，单链表，用来存储拼音、汉字对应关系的数据，一开始想着使用Bu cket数据结构，后来觉得，这个数据结构体里面冗余的信息太多了，也不是很符合我预想的数据结构，

so，最后使用了下面的数据结构：

typedef struct mylist {

    char *key;  //词语、成语或者单个汉字

    char *val;  //对应的拼音，拼音前面都有一个制表符`\t`

    struct mylist *next;    //指向下一个汉字拼音结构体

} MyList;

除此之外，我还考虑了性能问题，安前辈php版本的有个固有的缺陷，每次请求都要去加载一遍数据文

件，大概有600_{700kb左右，转换为数组，元素个数为40000}50000个左右，每次请求都会分配、释放这部分内

存。而且这个过程会有大量的计算过程（查找、替换），这也是php很不擅长的，如果用c语言会好很多。

因此，我就使用了PHP扩展，在模块初始化的时候，将所有配置数据载入内存，如果是fast-cgi模式，

不用每次请求都加载一遍配置数据，只在进程启动的时候加载一遍。计算的话没有找到php里面比较合适的

函数，字节写了查找替换的函数。

还有就是如何读取配置文件数据了，我采用了下面的数据格式存储每一个汉-拼对“，csv个格式，每一行

第一列是短语、词语或者汉字，第二列是拼音，每个拼音之间使用制表符\t分割，这样读取、进一步处理

就很方便了

汉字,   han zi

......

{汉字|词语|短语},   pin yin

实现

实现部分，挑几个主要的函数出来：

首先是给链表中添加汉字拼音结构体的函数，这里有个地方要注意，这里使用了c语言原声的malloc和

strdup，这是因为这个变量是全局的，不会随着请求的结束而销毁，而且也不会区分线程，因为所有的

线程都只会读取变量中的内容，所有的线程共享一套变量就可以了。

MyList *pinyin_list_append(MyList *last, const char *key, const char *value)

{

    MyList *element = (MyList *)malloc(sizeof(MyList));

    char *newKey = strdup(key);

    char *newVal = strdup(value);

    element->key = newKey;

    element->val = newVal;

    element->next = NULL;

    last->next = element;

    return element;

}

下面这个函数是从一行通过逗号分隔的字符串中取出逗号前面的部分作为汉字部分。

const char *get_key_from_line(const char *line, char *ret)

{

    int i = 0;

    while(*line)

    {

        if(*line != ',')

        {

            ret[i] = *line;

        }else {

            break;

        }

        i++;

        line++;

    }

    ret[i] = '\0';

    return ret;

}

下面是同一行中分离出拼音部分：

const char *get_val_from_line(const char *line, char *ret)

{

    int i = 0;

    int flag = 0;

    while(*line)

    {

        if(*line == '\n')

        {

            break;

        }

        if(*line == ',')

        {

            flag = 1;

            line++;

            continue;

        }else if(!flag) {

            line++;

            continue;

        }

        ret[i] = *line;

        i++;

        line++;

    }

    ret[i] = '\0';

    return ret;

}

下面是最重要的一个，替换字符换函数，from是要替换的字符串，to是要替换为的字符串，

str是原始字符串，ret是临时字符串，会保存临时的结果，is_name表示是否是姓名，

如果是姓名，只替换一次。

void str_replace(const char *from, const char *to, char *str, char *ret, zend_bool is_name)

{

    int pos = 0,

        fromLen = strlen(from),

        flag = 0;

    char *tmp = NULL,

         *strTmp = str;

    while(tmp = strstr(str, from))

    {

        pos = tmp - str;

        strncat(ret, str, pos);

        strcat(ret, to);

        str = tmp + fromLen;

        flag = 1;

        if(is_name)

            break;

    }   

    strcat(ret, str);

    if(1 == flag)

    {

        memcpy(strTmp, ret, strlen(ret));

        strTmp[strlen(ret)] = '\0';

    }

}

使用

只通过一个函数和标志位来实现，使用起来也是很方便的：

使用的时候可以参考github中的README.md，里面有详细的编译配置细节。

例子

print_r(chinese_to_pinyin("彪悍的人生不需要解释！"));

输出内容，带音标、带标点（标点和拼音挤在一起）

Array

(

    [0] => biāo

    [1] => hàn

    [2] => de

    [3] => rén

    [4] => shēng

    [5] => bù

    [6] => xū

    [7] => yào

    [8] => jiě

    [9] => shì！

)

print_r(chinese_to_pinyin("彪悍的人生不需要解释！", PINYIN_NONE|PINYIN_FORMAT_EN));

输出结果，不带音标，标点符号单独开了：

Array

(

    [0] => biao

    [1] => han

    [2] => de

    [3] => ren

    [4] => sheng

    [5] => bu

    [6] => xu

    [7] => yao

    [8] => jie

    [9] => shi

    [10] => !

)

print_r(chinese_to_pinyin("燕睿涛"));

print_r(chinese_to_pinyin("燕睿涛", PINYIN_ISNAME));

print_r(chinese_to_pinyin("罗永浩", PINYIN_ISNAME));

输出内容，可以看出PINYIN_ISNAME这个标志位还是很有用的，

rray

(

    [0] => yàn

    [1] => ruì

    [2] => tāo

)

Array

(

    [0] => yān

    [1] => ruì

    [2] => tāo

)

Array

(

    [0] => luō

    [1] => yǒng

    [2] => hào

)

初次之外，还有些关于标志位的使用规律：

PINYIN_NONE、PINYIN_UNICODE两个是对立的，使用前者没有音调，使用后者有音调，默认是前者。

PINYIN_TRIM、PINYIN_FORMAT_EN、PINYIN_FORMAT_CH是对立的，第一个清除所有标点、第二个

使用英文标点，第三个使用中文标点

PINYIN_ISNAME 如果设置了这个标志位，会使用姓氏的规则去解析读音。

总结

这是第二个PHP扩展了，这次写起来跟1年前相比容易了许多，错误也比较少了，继续努力吧~

不要停止学习的脚步，提高自身核心竞争力。

这是github地址：pinyin，欢迎大家点赞、fork、

pull-request或者提建议。

【汉字】转【pīnyīn】的更多相关文章

ADF_Data Binding系列1_使用Bean Data Control
2015-02-16 Created By BaoXinjian
结巴分词3--基于汉字成词能力的HMM模型识别未登录词
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 1 算法简介在结巴分词2--基于前缀词典及动态规划实现分词博 ...
.net汉字转字母
目前手上有一个需要实现:将用户输入的姓名转换成汉语拼音. 使用枚举,既麻烦又易出错,发现有一个微软拼音转换工具类ChnCharInfo.dll,在此记录下: 首先需要引入此dll, 链接: http: ...
STemwin汉字显示
硬件环境: STM32F429,电容屏800X480 5点触控RGB屏幕 ,SPI flash: 软件环境: UCOSIII,STemwin: 汉字显示方法: 1.在SPIflash中装在字库XBF_ ...
【转载】C#怎么判断字符是不是汉字
支持并尊重原创!原文地址:http://jingyan.baidu.com/article/2c8c281deb79ed0008252af1.html 判断一个字符是不是汉字通常有三种方法,第1种用 ...
iOS 汉字的拼音
获取汉字的拼音 #import <Foundation/Foundation.h> @interface NSString (Utils) /** * 汉字的拼音 * * @return ...
Oracle汉字转拼音package
--函数GetHzFullPY(string)用于获取汉字字符串的拼音 --select GetHzFullPY('中华人民共和国') from dual; --返回:ZhongHuaRenMinGo ...
Linux C语言解析.bmp格式图片并显示汉字
bmp.h 文件 #ifndef __BMP_H__ #define __BMP_H__ #include <unistd.h> #include <stdio.h> #inc ...
[python]获取网页中内容为汉字的字符串的判断
实际上是这样,将获取到网页中表单内容与汉字字符串作比较,即: a = request.POST['a'] if a == '博客园': print 'ok' else: print 'false' a ...

随机推荐

【原】JAVA SE编码规范
/* * 编码规范: * 1.所有的命名遵循"见名知意"的原则 * 2.所有的命名不允许使用汉字或拼音 * 3.Java的工程命名建议使用小写,比如:oa.crm.cms... * ...
MPAndroidChart 3.0——LineChart（折线图）
显示效果 MPAndroidChart每一种图表的基本使用方式都基本相同了解一种图表的实现参考项目源码其他的图表也就差不多哩在布局文件中定义 <com.github.mikephil.ch ...
c#进阶之神奇的CSharp
CSharp 简写为c#,是一门非常年轻而又有活力的语言. CSharp的诞生在2000年6月微软发布了c#这门新的语言.作为微软公司.NET 平台的主角,c#吸收了在他之前诞生的语言(c ...
关于iPhone图片的问题。
由于iOS设备的屏幕分辨率不尽相同,有大有小,那么在不同设备中显示同一张图片,可能会造成图片被拉伸.变形,严重影响用户体验.为了让图片在不同设备中都能得到很好的显示效果,同一类图片我们一般会准备几种版 ...
初步进行vs单元测试
首先提一下vs的安装过程,在官网下载免费社区版到本地,根据提示选择安装路径.以及大部分包文件开始安装,等待即可. eclipse的安装比vs多了JDK的下载安装,配置正确的path,以及在eclips ...
SE Springer小组《Spring音乐播放器》软件需求说明3
3 需求规定 3．1对功能的规定基本功能与相关的输入输出如下表所示.歌曲播放.停止.暂停等功能调用MCI库,数据在MCI库下如何运作与用户的直观感受无关,就不具体列出. 输入处理输出用户登录信 ...
RemodelanyWhere11.0.2673版本下载
百度云盘链接:http://pan.baidu.com/s/1geL5lez 密码:hisq 原文转载至:http://blog.sun0816.com/13623.html
[译]Thinking in React
编者按使用React的思想来构建应用对我在实际项目中以及帮助他人解决实际问题时起到了很大作用,所以我翻译此文来向那些正在或即将陷入React或React-Native深坑的同胞们表示慰问.网上已经有 ...
windows中，端口查看&关闭进程及Kill使用
测试过程中遇到的问题,杂记一: 1.netstat -ano | findstr "8001" 查看端口8001被哪个进程占用:由下图可以看出,被进程为3736的占用 2.查 ...
MMORPG大型游戏设计与开发（服务器 AI 逻辑设定和状态结点）
人工智能(AI)中往往都会有这么一个问题,那就是我要做什么?我该怎么做?我需要什么?所以这里所谓的智能就是赋予AI对象的判断力,以及它根据判断得到的相应反应.就好比,你去商店买东西,钱够别人才卖给你, ...

【汉字】转【pīnyīn】

引言

设计

实现

使用

例子

总结

【汉字】转【pīnyīn】的更多相关文章

随机推荐

热门专题