PHP 中文工具类,支持汉字转拼音、拼音分词、简繁互转
ChineseUtil
下载地址:https://github.com/Yurunsoft/ChineseUtil
另外一个中文转拼音工具:https://github.com/overtrue/pinyin
PHP 中文工具类,支持汉字转拼音、拼音分词、简繁互转。
PHP Chinese Tool class, support Chinese pinyin, pinyin participle, simplified and traditional conversion
目前本类库拥有的三个功能,都是在实际开发过程中整理出来的。这次使用的数据不同于以前我开源过汉字转拼音和简繁互转,数据都是从字典网站采集下来的,比以前的数据更加准确。
由于中文的博大精深,字有多音字,简体字和繁体字也有多种对应。并且本类库返回的所有结果,均为包含所有组合的数组。
本类库字典数据总共收录 73925 个汉字,包括:3955 个简体字,1761 个繁体字,68209 个其它汉字。
内存占用
类库第一个版本发布开始,群里朋友就展开了激烈的讨论,最大的问题就在于内存占用以及性能问题上。经过我不断尝试几种方案,最终决定设置三种模式,来适应不同用户之间的需求。
- 性能模式 (Memory),使用 SQLite 作为数据载体,一次性加载所有数据到变量,内存占用高(80 MB),性能最佳。
- 通用模式 (SQLite),使用 SQLite 作为数据载体,每次查询都通过 SQL 查询,内存占用低(600+ KB),性能中等。
- 兼容模式 (JSON),使用精简过的 JSON 数据作为数据载体,一次性加载所有数据到变量,内存占用中(28 MB),性能差。
内存占用量以实际为准,根据版本、扩展等环境的不同,占用的内存容量不一样,上述值为我电脑上的情况,仅供参考。
性能模式适合运行于持久性服务,推荐使用 Swoole 开发服务程序,只加载一次数据,无需重复加载。当然,你服务器内存足够大,或者并发访问不高也可以使用这种模式。
性能模式和通用模式需要 PDO 和 PDO_SQLITE 扩展支持。
兼容模式无扩展依赖,由于精简了数据,一些拼音结果需要经过代码计算处理才可以得出,所以性能较差。
默认情况下,优先使用通用模式,如果环境不支持 PDO 将采用兼容模式。
你可以在未执行任何初始化或者转换处理之前,设置使用何种模式运行。
// 设为性能模式
Chinese::setMode('Memory');
// 设为通用模式
Chinese::setMode('SQLite');
// 设为兼容模式
Chinese::setMode('JSON');
无论何种模式,拼音分词所需数据总是从 JSON 数据中加载。
使用说明
Composer 直接安装
composer require yurunsoft/chinese-util
Composer 项目配置引入
"require": {
"yurunsoft/chinese-util" : "~1.0"
}
功能
汉字转拼音
use \Yurun\Util\Chinese;
$string = '恭喜發財!';
echo $string, PHP_EOL; echo '全拼:', PHP_EOL;
var_dump(Chinese::toPinyin($string, Pinyin::CONVERT_MODE_PINYIN)); echo '首字母:', PHP_EOL;
var_dump(Chinese::toPinyin($string, Pinyin::CONVERT_MODE_PINYIN_FIRST)); echo '读音:', PHP_EOL;
var_dump(Chinese::toPinyin($string, Pinyin::CONVERT_MODE_PINYIN_SOUND)); echo '读音数字:', PHP_EOL;
var_dump(Chinese::toPinyin($string, Pinyin::CONVERT_MODE_PINYIN_SOUND_NUMBER)); echo '自选返回格式 + 以文本格式返回 + 自定义分隔符:', PHP_EOL;
var_dump(Chinese::toPinyin($string, Pinyin::CONVERT_MODE_PINYIN | Pinyin::CONVERT_MODE_PINYIN_SOUND_NUMBER, ' ')); echo '所有结果:', PHP_EOL;
var_dump(Chinese::toPinyin($string));
/**
所有结果:
array(4) {
["pinyin"]=>
array(1) {
[0]=>
array(5) {
[0]=>
string(4) "gong"
[1]=>
string(2) "xi"
[2]=>
string(2) "fa"
[3]=>
string(3) "cai"
[4]=>
string(3) "!"
}
}
["pinyinSoundNumber"]=>
array(1) {
[0]=>
array(5) {
[0]=>
string(5) "gong1"
[1]=>
string(3) "xi3"
[2]=>
string(3) "fa1"
[3]=>
string(4) "cai2"
[4]=>
string(3) "!"
}
}
["pinyinFirst"]=>
array(1) {
[0]=>
array(5) {
[0]=>
string(1) "g"
[1]=>
string(1) "x"
[2]=>
string(1) "f"
[3]=>
string(1) "c"
[4]=>
string(3) "!"
}
}
["pinyinSound"]=>
array(1) {
[0]=>
array(5) {
[0]=>
string(5) "gōng"
[1]=>
string(3) "xǐ"
[2]=>
string(3) "fā"
[3]=>
string(4) "cái"
[4]=>
string(3) "!"
}
}
}
全拼:
array(1) {
["pinyin"]=>
array(1) {
[0]=>
array(5) {
[0]=>
string(4) "gong"
[1]=>
string(2) "xi"
[2]=>
string(2) "fa"
[3]=>
string(3) "cai"
[4]=>
string(3) "!"
}
}
}
首字母:
array(1) {
["pinyinFirst"]=>
array(1) {
[0]=>
array(5) {
[0]=>
string(1) "g"
[1]=>
string(1) "x"
[2]=>
string(1) "f"
[3]=>
string(1) "c"
[4]=>
string(3) "!"
}
}
}
读音:
array(1) {
["pinyinSound"]=>
array(1) {
[0]=>
array(5) {
[0]=>
string(5) "gōng"
[1]=>
string(3) "xǐ"
[2]=>
string(3) "fā"
[3]=>
string(4) "cái"
[4]=>
string(3) "!"
}
}
}
读音数字:
array(1) {
["pinyinSoundNumber"]=>
array(1) {
[0]=>
array(5) {
[0]=>
string(5) "gong1"
[1]=>
string(3) "xi3"
[2]=>
string(3) "fa1"
[3]=>
string(4) "cai2"
[4]=>
string(3) "!"
}
}
}
自选返回格式 + 以文本格式返回 + 自定义分隔符:
array(2) {
["pinyin"]=>
array(1) {
[0]=>
string(18) "gong xi fa cai !"
}
["pinyinSoundNumber"]=>
array(1) {
[0]=>
string(22) "gong1 xi3 fa1 cai2 !"
}
}
* /
拼音分词
use \Yurun\Util\Chinese;
$string2 = 'xianggang';
echo '"', $string2, '"的分词结果:', PHP_EOL;
var_dump(Chinese::splitPinyin($string2));
/**
输出结果:
"xianggang"的分词结果:
array(2) {
[0]=>
string(12) "xi ang gang "
[1]=>
string(11) "xiang gang "
}
* /
简繁互转
use \Yurun\Util\Chinese;
$string3 = '中华人民共和国!恭喜發財!';
echo '"', $string3, '"的简体转换:', PHP_EOL;
var_dump(Chinese::toSimplified($string3));
echo '"', $string3, '"的繁体转换:', PHP_EOL;
var_dump(Chinese::toTraditional($string3));
/**
输出结果:
"中华人民共和国!恭喜發財!"的简体转换:
array(1) {
[0]=>
string(39) "中华人民共和国!恭喜发财!"
}
"中华人民共和国!恭喜發財!"的繁体转换:
array(1) {
[0]=>
string(39) "中華人民共和國!恭喜發財!"
}
* /
PHP 中文工具类,支持汉字转拼音、拼音分词、简繁互转的更多相关文章
- Android开发调试日志工具类[支持保存到SD卡]
直接上代码: package com.example.callstatus; import java.io.File; import java.io.FileWriter; import java.i ...
- springboot配置ehcache2.X缓存(@Cacheable等注解和手动操作缓存的工具类 支持element粒度的时间设置)
本文只写出一些注意事项和源码,请善用官方文档~ 注解实现 @Cacheable @CachePut @CacheEvit 启动类上加@EnableCaching就可以开启缓存 由文档可知,自动检测缓存 ...
- Lucene第二篇【抽取工具类、索引库优化、分词器、高亮、摘要、排序、多条件搜索】
对Lucene代码优化 我们再次看回我们上一篇快速入门写过的代码,我来截取一些有代表性的: 以下代码在把数据填充到索引库,和从索引库查询数据的时候,都出现了.是重复代码! Directory dire ...
- Elasticsearch高级搜索排序( 中文+拼音+首字母+简繁转换+特殊符号过滤)
一.先摆需求: 1.中文搜索.英文搜索.中英混搜 如:"南京东路","cafe 南京东路店" 2.全拼搜索.首字母搜索.中文+全拼.中文+首字母混搜 如 ...
- java工具类(五)之日期格式字符串与日期实现互转
JAVA字符串转日期或日期转字符串 项目开发过程中需要实现日期格式的字符串与日期进行互转,并进行日期的加减操作. Demo如下: package weiming.lmapp.utils; import ...
- html便民查询各个工具类实例代码分享(支持pc和移动端)
1.手机号码查询 <iframe id="api_iframe_51240" name="api_iframe_51240" src="&quo ...
- 转:轻松把玩HttpClient之封装HttpClient工具类(一)(现有网上分享中的最强大的工具类)
搜了一下网络上别人封装的HttpClient,大部分特别简单,有一些看起来比较高级,但是用起来都不怎么好用.调用关系不清楚,结构有点混乱.所以也就萌生了自己封装HttpClient工具类的想法.要做就 ...
- Java汉字转成汉语拼音工具类
Java汉字转成汉语拼音工具类,需要用到pinyin4j.jar包. import net.sourceforge.pinyin4j.PinyinHelper; import net.sourcefo ...
- java PinYinUtils 拼音工具类
package com.sicdt.library.core.utils; import java.util.HashSet; import java.util.Set; import net.sou ...
随机推荐
- Java 基础 接口和多态
接口 接口的概念 接口是功能的集合,同样可看做是一种数据类型,是比抽象类更为抽象的”类”. 接口只描述所应该具备的方法,并没有具体实现,具体的实现由接口的实现类(相当于接口的子类)来完成.这样将功能的 ...
- js和java的参数传递方式实际都是一样的,都是按值传递
只不过要注意的是字符串类型在java中是对象,在js是基本数据类型,作为参数传递的时候是拷贝值,
- 2sum,3sum,4sum,ksum
1. 2sum 题目:给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标.你可以假设每种输入只会对应一个答案.但是,你不能重复利 ...
- ubuntu下ldd,查看程序动态库信息
ldd list, dynamic, dependencies linux-vdso.so. => (0x00007ffe9d9b6000) libstdc++.so. => /usr/ ...
- kdevelp 导入makefile工程
比如upx工程,将upx/src/makefile中makefile改为makefile.am,自用kdevelop导入工程找到makefile.am,生成工程后去掉.am,这样就可以像vs一样调试程 ...
- cocos2d JS 设置字幕循环滚动(背景图滚动亦可)
var dong = ccs.load("res/Login.json"); this.addChild(dong.node); this.cShamNotice = ccui.h ...
- ling join 报错The specified LINQ expression contains references to queries that are associated with different cont
The specified LINQ expression contains references to queries that are associated with different cont ...
- 如何登录Sitecore CMS
这是关于学习如何使用和开发Sitecore CMS的系列文章中的第一篇. 在使用Sitecore CMS之前,必须先登录.新Sitecore开发人员常见的一个问题是“我该在哪里登录?” 安装任何版本的 ...
- Java基础(basis)-----抽象类和接口详解
1.抽象类 1.1 abstract修饰类:抽象类 不可被实例化 抽象类有构造器 (凡是类都有构造器) 抽象方法所在的类,一定是抽象类 抽象类中可以没有抽象方法 1.2 abstract修饰方法:抽象 ...
- Azure Event Hub 技术研究系列1-Event Hub入门篇
前两个系列研究了Azure IoT Hub和Azure Messaging.最近准备继续研究Azure Event Hub,即Azure的事件中心.首先, Azure Event Hub的官方介绍: ...