HTML5 汉字转化为拼音,带读声,穷举多音字
1,没别的,像这种没有规则的转化,我们首先需要一个字典文件,字典文件的完整度,决定了转化的成功率与精确度
2,笔者收集了较为完整的字典文件,已上传到博客园,欢迎补充 => https://blog-static.cnblogs.com/files/lovling/pinyin.dict.js
这个地址可以直接用 script 标签引入,但是博客园经常抽风,是不是的访问不到,推荐使用时还是在浏览器打开,拷贝到本地在引入使用
3,借助字典,编写程序进行匹配转化,代码如下,注释写的不是很详细,不过相信都能看懂
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>汉字转化为拼音</title>
<!--<script src="https://blog-static.cnblogs.com/files/lovling/pinyin.dict.js"></script>-->
<script src="./pinyin.dict.js"></script>
<script src="https://cdn.bootcss.com/jquery/3.3.0/jquery.min.js"></script>
</head>
<style type="text/css">
#word, #butt {
width: 360px;
height: 44px;
margin: 0;
padding: 0;
box-sizing: border-box;
font-size: 14px;
}
#text1, #text2, #text3 {
height: 44px;
}
</style>
<body>
<input id="word" type="text" />
<input id="butt" type="button" value="转化" />
<div id="text1"></div>
<div id="text2"></div>
<div id="text3"></div>
</body>
<script type="text/javascript">
/**
* 封装汉字转化为拼音的方法,该方法具有以下特点
* 1, 多音字只是识别成多种拼音组合, 不能精准识别
* 2, 不开启多音字, 汉字识别返回使用频率高的拼音
* @param {String} str: 汉字字符串
* @param {Boolean} isTone: 是否进行声调识别 默认 false
* @param {Boolean} isMultitone: 是否穷举多音字 默认 false
* @return: 如果开启多音字识别, 返回的是数组, 否则返回字符串
*/
var chineseCharToPinyin = (function () {
// 注意这里的变量 pinyinDict 来自于字典文件,需要先引入字典文件,且该变量不要在程序中被覆盖
var temp = pinyinDict.split(','), withtone = {};
// 循环遍历字典,以汉字字符为 key,对应的拼音为 value,形成一个超大的 JSON 对象
for(var i = 0; i < temp.length; i++) {
withtone[String.fromCharCode(i + 19968)] = temp[i];
}
var toneMap = {
"ā": "a1", "á": "a2", "ǎ": "a3", "à": "a4", "ō": "o1", "ó": "o2", "ǒ": "o3",
"ò": "o4", "ē": "e1", "é": "e2", "ě": "e3", "è": "e4", "ī": "i1", "í": "i2",
"ǐ": "i3", "ì": "i4", "ū": "u1", "ú": "u2", "ǔ": "u3", "ù": "u4", "ü": "v0",
"ǖ": "v1", "ǘ": "v2", "ǚ": "v3", "ǜ": "v4", "ń": "n2", "ň": "n3", "": "m2"
};
// 未开启声调识别的时候,将带声调的字符切换成不带声调的字母
var removeTone = function(pinyin) {
return pinyin.replace(/[āáǎàōóǒòēéěèīíǐìūúǔùüǖǘǚǜńň]/g, function(m) {
return toneMap[m][0];
});
};
// 过滤掉多音字穷举产生的相同结果
var simpleUnique = function(array) {
var result = [], hash = {};
for(var i = 0; i < array.length; i++) {
var key = (typeof array[i]) + array[i];
if(!hash[key]) {
result.push(array[i]);
hash[key] = true;
}
}
return result;
};
// 多音字穷举
var handlePolyphone = function(array, joinChar) {
var result = [''], temp = [];
for(var i = 0; i < array.length; i++) {
temp = [];
var t = array[i].split(' ');
for(var j = 0; j < t.length; j++) {
for(var k = 0; k < result.length; k++)
temp.push(result[k] + (result[k] ? joinChar : '') + t[j]);
}
result = temp;
}
return simpleUnique(result);
};
// 对外返回一个转化的方法
return function (str, isTone = false, isMultitone = false) {
var result = [], pinyin;
for(var i = 0; i < str.length; i++) {
pinyin = withtone[str[i]];
if(!isTone && pinyin) pinyin = removeTone(pinyin);
if(!isMultitone && pinyin) pinyin = pinyin.replace(/ .*$/g, '');
result.push(pinyin || str[i]);
}
if(!isMultitone) return result.join(" ");
return handlePolyphone(result, " ");
}
})(); /**
* 写一个输入框测试一下
*/
$('#butt').on("click", function (ev) {
var str = $("#word").val().trim(); // 最简单的使用
$("#text1").text(chineseCharToPinyin(str)); // 带读声识别的使用
$("#text2").text(chineseCharToPinyin(str, true)); // 穷举多音字的使用
$("#text3").text(chineseCharToPinyin(str, true, true)) });
</script>
</html>
4,效果如下,还是不错的吗

5,唯一遗憾的是,我们发现,开启多音字识别的时候,并不能准确的识别出我们想要的,而是返回了所有可能的组合
6,我们有办法实现准确的识别码?理论上是可行的,只要我们拥有一个强大的词典,
7,注意是词典,不是字典,指每个汉字的所有可能词组,包括各种不同语境,某些地区的使用习惯,某些群体的使用习惯等等
7,这已经涉及到大数据和人工智能的(个人看法),由于组合实在太多,想要收集十分困难,就算收集完成,计算量也非常庞大,一般设备也不一定带的动
HTML5 汉字转化为拼音,带读声,穷举多音字的更多相关文章
- C# 将汉字转化成拼音
本文来自http://www.cnblogs.com/yazdao/archive/2011/06/04/2072488.html 首先下载Visual Studio International Pa ...
- c#把汉字转化成全拼音函数(全拼)
/// <summary> /// 把汉字转换成拼音(全拼) /// </summary> /// <param name=&q ...
- 利用python将表格中的汉字转化为拼音
缺少包时用pip install 进行安装,例如: pip install xlsxwriter 完成代码如下: #!/usr/bin/python #-*-coding:utf-8-*- #fr ...
- react下将输入的汉字转化为拼音
1.首先需要一个简单的拼音和汉字对应的字典文件: /** * 收录常用汉字6763个,不支持声调,支持多音字,并按照汉字使用频率由低到高排序 */ var pinyin_dict_notone = { ...
- 将汉字转化为拼音的js插件
/*---------------------------------------------------------------- // 文件名:chinese2pinyin.js // 文件功能描 ...
- 将汉字转化为拼音,正则表达式和得到汉字的Unicode编码
一:上图,不清楚的看代码注解,很详细了 二:具体代码 窗体代码 using System; using System.Collections.Generic; using System.Compone ...
- js如何将汉字转化为拼音
github地址,上面有封装好的转换工具:https://github.com/sxei/pinyinjs 里面有几个库,根据功能,库的文件大小也不一样,可以根据需求去引入使用. 里面封装好了方法: ...
- sql标量值函数,将汉字转化为拼音,无音标
USE [db_Test]GO SET ANSI_NULLS ONGO SET QUOTED_IDENTIFIER ONGO create function [dbo].[fn_GetPinyin]( ...
- 通过类库ChineseChar实现将汉字转化为拼音
//封装dllusing Microsoft.International.Converters.PinYinConverter;using System.Text;namespace Utils{ p ...
随机推荐
- 选择排序-C#
选择排序包括:简单选择排序和堆排序 简单选择排序: 基本思路:从所有序列中先找到最小的,然后放到第一个位置.之后再看剩余元素中最小的,放到第二个位置……以此类推 /// <summary> ...
- sqlserver2008简介
sql 数据库简介 应该掌握的部分: 1. 数据库的基本概念 2. 数据库模型的基本概念 3. 实体联系模型的基本概念 4. 关系模型的基本概念和性质 5. 数据库优化理论 6. 掌握创建 ...
- bond-team
nmcli con add type team con-name team0 ifname team0 config '{"runner":{"name": & ...
- 怎样Debug Dynamics 365 CRM Plugin
写了这么多期的随笔,很多人会问,怎么debug写好的plugin呢 首先我们需要准备以下内容 Visual Studio Plugin Registration Tool CRM Instance E ...
- 关闭linux服务器防火墙
--全部关闭 systemctl stop firewalld.service #停止firewallsystemctl disable firewalld.service #禁止firewal ...
- 弄懂Kafka的消息流转过程
原文地址:https://www.cnblogs.com/chanshuyi/p/quick_start_of_kafka.html 大家都知道 Kafka 是一个非常牛逼的消息队列框架,阿里的 Ro ...
- mvc项目远程发布到windows server服务器
1.安装IIS的时候需要将这两个选项勾选起来 2.确保 管理服务委派 这个选项存在 3.添加委派规则 4.配置IIS管理用户,后续需要用这个用户进行发布连接 5.配置站点的IIS权限 选择刚才在前面设 ...
- mysql导入sql文件出错的一种解决方法
转:https://blog.csdn.net/u011806486/article/details/60147358 本人在本地使用navicat for mysql可以连接到服务器数据库,但是从服 ...
- python 画图工具matplotlib 去掉坐标轴和坐标的方法
1. 去掉坐标轴的方法: plt.axis('off') 2.去掉刻度的方法: plt.xticks([]) plt.yticks([]) 以上语句需要将其置于 plt.show() 之前,plt.i ...
- CentOs 设置静态IP
1.修改网卡配置 编辑:vi /etc/sysconfig/network-scripts/ifcfg-eno49 通过ifconfig命令,查看在用的网卡(特别是网卡别名).也可以进入/etc/sy ...