【汉字】转【pīnyīn】

引言 github地址:aizuyan/pinyin 无意中看到了overtrue/pinyin这个项目,感觉很有意思, 这个项目做了这么一件事情: 将汉字转化为拼音刚看到这里是不是觉得没什么难度,没什么意思?您不妨接着往下看.要是只是将汉字转为拼音好像很容易就实现了,但是要是给转换之后的汉字带上音调呢,这样难度就很大了,因为汉字博大精深, 其中一方面就表现在多音字,同样一个字在不同的语句场景下,音调是不一样的.看到这里你在考虑下如何处理? 这里我还是很佩服安正超(要是不了解他,不妨点进去…

结巴分词3--基于汉字成词能力的HMM模型识别未登录词

作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 1 算法简介在结巴分词2--基于前缀词典及动态规划实现分词博文中,博主已经介绍了基于前缀词典和动态规划方法实现分词,但是如果没有前缀词典或者有些词不在前缀词典中,jieba分词一样可以分词,那么jieba分词是如何对未登录词进行分词呢?这就是本文将要讲解的,基于汉字成词能力的HMM模型识别未登录词. 利用HMM模型进行分词,主要是将分词问题视为一个序列标注(…

.net汉字转字母

目前手上有一个需要实现:将用户输入的姓名转换成汉语拼音. 使用枚举,既麻烦又易出错,发现有一个微软拼音转换工具类ChnCharInfo.dll,在此记录下: 首先需要引入此dll, 链接: http://pan.baidu.com/s/1hsa9Y40 密码: ijdi 写一个转换的Helper类: public class ChineseToCharHelper { /// <summary>得到汉字拼音(Item1:全拼 2:首字母缩写 3:大写开头全拼)</summary>…

STemwin汉字显示

硬件环境: STM32F429,电容屏800X480 5点触控RGB屏幕 ,SPI flash: 软件环境: UCOSIII,STemwin: 汉字显示方法: 1.在SPIflash中装在字库XBF_XINSONGTI19: 2.使用U2C.exe工具进行UTF-8到字体的转化: 1)新建test.txt文件,写入汉字“你好”,另存为,选择编码方式:UTF-8: 2)打开软件U2C.exe,载入文件test.txt,导出文件名test.c: 3.在GUIBuider中加入MULTIEDIT文本显…

【转载】C#怎么判断字符是不是汉字

支持并尊重原创!原文地址:http://jingyan.baidu.com/article/2c8c281deb79ed0008252af1.html 判断一个字符是不是汉字通常有三种方法,第1种用 ASCII 码判断,第2种用汉字的 UNICODE 编码范围判断,第3种用正则表达式判断,下面是具体方法. 1.用ASCII码判断在 ASCII码表中,英文的范围是0-127,而汉字则是大于127,根据这个范围可以判断,具体代码如下: /// <summary> /// 用 ASCII 码范围…

iOS 汉字的拼音

获取汉字的拼音 #import <Foundation/Foundation.h> @interface NSString (Utils) /** * 汉字的拼音 * * @return 拼音 */ - (NSString *)pinyin; @end #import "NSString+Utils.h" @implementation NSString (Utils) //汉字的拼音 - (NSString *)pinyin{ NSMutableString *str =…

Oracle汉字转拼音package

--函数GetHzFullPY(string)用于获取汉字字符串的拼音 --select GetHzFullPY('中华人民共和国') from dual; --返回:ZhongHuaRenMinGongHeGuo --函数GetHzPYCAP(string)用于获取拼音首字母 --select GetHzPYCAP('中华人民共和国') from dual; --返回ZHRMGHG create or replace package GetHZPY is -- Author : ADMINIS…

Linux C语言解析.bmp格式图片并显示汉字

bmp.h 文件 #ifndef __BMP_H__ #define __BMP_H__ #include <unistd.h> #include <stdio.h> #include <stdlib.h> #include <fcntl.h> #include <string.h> #include <linux/fb.h> #include <sys/mman.h> #include <sys/ioctl.h&g…

[python]获取网页中内容为汉字的字符串的判断

实际上是这样,将获取到网页中表单内容与汉字字符串作比较,即: a = request.POST['a'] if a == '博客园': print 'ok' else: print 'false' a是表单内容,假设为"博客园",内容输出理论上为ok,但为false,这是为什么了,带着疑问,百度了一下,发现是python编码的问题,代码改成这样就解决了: a = request.POST['a'] if a == u'博客园': print 'ok' else: print 'fals…

[No000093]按住Alt 再按数字键敲出任意汉字和字符！

1.在notepad里,(中文系统下) 按住Alt 然后按52946最后放开Alt 按住Alt 然后按45230最后放开Alt 按住Alt 然后按50403最后放开Alt 你会看到"我爱你"三个字. 2.原理:Alt+[Unicode编码]对应的十进制数字即可打出该[Unicode编码] 比如52946是"我"在Unicode下的十进制编码,45230是"爱"在Unicode下的十进制编码,50403是"你"在Unicode下…

JavaScript 汉字与拼音互转终极方案附JS拼音输入法

转:http://www.codeceo.com/article/javascript-pinyin.html 前言网上关于JS实现汉字和拼音互转的文章很多,但是比较杂乱,都是互相抄来抄去,而且有的不支持多音字,有的不支持声调,有的字典文件太大,还比如有时候我仅仅是需要获取汉字拼音首字母却要引入200kb的字典文件,无法根据实际需要满足需求. 综上,我精心整理并修改了网上几种常见的字典文件并简单封装了一下可以直接拿来用的工具库. 代码和DEMO演示 github项目地址:https://git…

sql 取汉字首字母

)) ) --用于加密 --WITH ENCRYPTION as begin declare @intLen int ) ) set @intLen = len(@str) set @strRet = '' begin set @temp = '' select @temp = case ) >= '帀' then 'Z' ) >= '丫' then 'Y' ) >= '夕' then 'X' ) >= '屲' then 'W' ) >= '他' then 'T' ) >…

ASP.NET MVC4 URL传递汉字参数不能正确接收

前两天写了个项目,在chrome上做的开发和测试. 拿给了产品,产品使用IE8.7.6进行测试的时候,发现很多报错.原因是URL里面的汉字在后台接收时显示的时乱码. 百度之~~ 最终解决方案, 在WEB.CONFIG文件的 <system.web> 标签中填写代码: <globalization requestEncoding="gb2312" responseEncoding="gb2312" fileEncoding="gb2312&…

截取UTF-8编码的汉字，最后一个字出现乱码的问题

问题描述原来字串内容name为下面内容: ######name=杨乃文做DJ,微信公众号FunRadio.什么样的姿态是小丑姿态?2016046###### 需要截取成大小为64的name_rm[64]的数组内容,出现如下乱码: ######name=杨乃文做DJ,微信公众号FunRadio.什么样的姿态斣##### 问题分析 UTF-8编码,汉字占3个字节,英文占一个字节,标点符号占领3个字节. 汉子:15*3=45 英文:10*1=10 标点符号:2*3=6 共61,64-61=3还可…

SQL汉字转拼音函数-支持首字母、全拼

SQL汉字转拼音函数-支持首字母.全拼 FROM :http://my.oschina.net/ind/blog/191659 作者不详 --方法一sqlserver汉字转拼音首字母 --调用方法 select dbo.procGetPY ('中國') Create FUNCTION dbo.procGetPY ( ) ) /* select dbo. procGetPYFirstLetter ('中國') */ ) --WITH ENCRYPTION AS BEGIN ),) SET @PY=…

Autoit3 正则表达式匹配汉字

关于Autoit3正则匹配汉字,在网上搜来搜去都是雷同的内容,[\u4e00-\u9fa5] 然而,Invalid all the time 直到认真钻研Help File,最终又看到了这个 http://www.pcre.org/original/doc/html/pcrepattern.html 有心人自懂,瞬间解决,Oh yeah!…

限制HTML的input只能输入数字、英文、汉字...

限制HTML的input只能输入数字.英文.汉字... 关键词:正则表达式, JavaScript, HTML, input 常用HTML正则表达式1.只能输入数字和英文的:<input onkeyup="value=value.replace(/[/W]/g,'') "onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^/d]/g,''))"…

SQL SERVER 得到汉字首字母函数四版全集 --【叶子】

--创建取汉字首字母函数(第三版) create function [dbo].[f_getpy_V3] ( ) ) ) as begin ),) ,@len = len(@col),@sql = '' while @cyc <= @len begin ) as varbinary) ),ecode ),letter )) insert into @maco select 0XB0A1,0XB0C4,'A' union all select 0XB0C5,0XB2C0,'B' union all…

汉字正则表达式[\u4E00-\u9FFF]原因

转载易天:正则表达式的汉字匹配这里是几个主要非英文语系字符范围 2E80-33FFh:中日韩符号区.收容康熙字典部首.中日韩辅助部首.注音符号.日本假名.韩文音符,中日韩的符号.标点.带圈或带括符文数字.月份,以及日本的假名组合.单位.年号.月份.日期.时间等. 3400-4DFFh:中日韩认同表意文字扩充A区,总计收容6,582个中日韩汉字. 4E00-9FFFh:中日韩认同表意文字区,总计收容20,902个中日韩汉字. A000-A4FFh:彝族文字区,收容中国南方彝族文字和字根. AC0…

Jtable 表格按多列排序（支持中文汉字排序）

这两天公司让做一个Jtable表格的排序,首先按A列排序,在A列相等时按B列排序,B列相等时按C列排序,ABC三列可以任意指定,最多分三列,这样的一个需求.由于我是大神,所以必须做了出来.ok,不自恋了,先上效果图,然后上代码,最后上项目.这也将是我以后的一贯风格,懂得分享才能走的更高! 简单描述一下,瞅准某列,第一次点击升序,第二次点击降序,第三次点击取消排序.图为先按密码升序,然后按用户名升序,最后按年龄降序. 一. 准备工作,及整体思路我的环境,jdk1.6,jdk1.7,j…

【干货】JS版汉字与拼音互转终极方案，附简单的JS拼音输入法

前言网上关于JS实现汉字和拼音互转的文章很多,但是比较杂乱,都是互相抄来抄去,而且有的不支持多音字,有的不支持声调,有的字典文件太大,还比如有时候我仅仅是需要获取汉字拼音首字母却要引入200kb的字典文件,无法根据实际需要满足需求. 综上,我精心整理并修改了网上几种常见的字典文件并简单封装了一下可以直接拿来用的工具库. 这篇文章差不多一个月前就写好了大部分了,但是就差拼音输入法这一块一直没时间去弄(与其说是没时间,还不如说是本人太懒),所以一直拖到今天才发表. 代码和DEMO演示 github…

基于stm32f4的ucGUI通过外部flash存储汉字库显示任意英文字符和汉字组合（控件可用）

在做一个用到ucGUI的项目的时候要用到不定的汉字和英文字符,但是ucGUI本身又不支持读取芯片外部flash的字库来显示,于是查了下资料,如下: http://www.cnblogs.com/hiker-blogs/archive/2013/01/04/2843538.html 站在巨人的肩膀上,我找到了将汉字库写进flash后,通过ucGUI的控件显示出来的方法,但是至此,并不能在一个字符串里添加汉字和英文,用于同时显示,因为flash里面没有英文字符的模. 为了让一个控件同时显示汉字和英文…

word-spacing汉字不起作用的解决方法

异常处理汇总-前端系列 http://www.cnblogs.com/dunitian/p/4523015.html 调节文字间的距离,发现==>word-spacing汉字不起作用研究发现,使用:letter-spacing才可以(可以这样理解:word-spacing==>单词间隔,letter-spacing==>字母/汉子间隔)…

js只能输入数字、汉字、字母等正则匹配

只能输英文:<input type="text" onkeyup="value=value.replace(/[^a-zA-Z]/g,'')"> 只能输入汉字:<input onkeyup="value=value.replace(/[^\u4E00-\u9FA5]/g,'')" onbeforepaste="clipboardData.setData('text',clipboardData.getData('tex…

Myeclipse中导入项目后java类中汉字注释出现乱码问题(已解决)

今天重装系统,安装了新的Myeclipse后,导入之前的项目后,,出现了乱码问题.乱码问题主要是java类中的注释,而jsp页面中汉字却完好如初: 右键项目,查看项目的编码格式,UTF-8,把java文件直接用记事本打开,没问题,没有乱码,查看了一下记事本的编码格式,GBK,看来myeclipse无法解析汉字的原因是因为对于java文件的编码格式不是GBK,网络上查了一下,发现在myeclipse中编写java文件的默认编码格式是GBK,于是将java的默认编码格式改为GBK,就可以了.具体步…

C#汉字转拼音（支持多音字）

之前由于项目需要,中间需要一个汉字转拼音和首拼的功能来做查询,感觉这种功能基本已经成熟化了,于是查找了相关的代码,首先引入眼帘的是下面两篇文章 1.C# 汉字转拼音(支持GB2312字符集中所有汉字) 2.[干货]JS版汉字与拼音互转终极方案,附简单的JS拼音输入法感谢两位博主,写的比较全也很详细,都有提供源码,大家可以参考下. 由于考虑到接口的需要,于是参考了第一篇,文章中作者的源码基本能满足汉字转拼音的需要,对于其他特殊的字符,也可以在进行添加补充,不足之处就是不支持多音字,由于需要支持…

.Net(c#)汉字和Unicode编码互相转换

{"Tilte": "\u535a\u5ba2\u56ed", "Href": "http://www.cnblogs.com"} 经常遇到这样内容的json字符串,原来是把其中的汉字做了Unicode编码转换. Unicode编码: 将汉字进行UNICODE编码,如:“王”编码后就成了“\王”,UNICODE字符以\u开始,后面有4个数字或者字母,所有字符都是16进制的数字,每两位表示的256以内的一个数字.而一个汉字是由两…

在UTF-8中，一个汉字为什么需要三个字节？

UNICODE是万能编码,包含了所有符号的编码,它规定了所有符号在计算机底层的二进制的表示顺序.有关Unicode为什么会出现就不叙述了,Unicode是针对所有计算机的使用者定义一套统一的编码规范,这样计算机使用者就避免了编码转换的问题.Unicode定义了所有符号的二进制形式,也就是符号如何在计算机内部存储的,而且每个符号规定都必须使用两个字节来表示,也就是用16位二进制去代表一个符号,这样就导致了一个问题,英文编码的空间浪费,因为在ANSI中的符号都是一个字节来表示的,而使用了UNICOD…

请问utf-8的中文是一个汉字占三个字节长度吗？

这是个好问题,可以当作一个笔试题.先从字符编码讲起. 1.美国人首先对其英文字符进行了编码,也就是最早的ascii码,用一个字节的低7位来表示英文的128个字符,高1位统一为0: 2.后来欧洲人发现尼玛你这128位哪够用,比如我高贵的法国人字母上面的还有注音符,这个怎么区分,得,把高1位编进来吧,这样欧洲普遍使用一个全字节进行编码,最多可表示256位.欧美人就是喜欢直来直去,字符少,编码用得位数少: 3.但是即使位数少,不同国家地区用不同的字符编码,虽然0--127表示的符号是一样的,但是128…