Ruby:字符集和编码学习总结
背景
Ruby直到1.9版本才很好的支持了多字节编码,本文简单总结了今天学习的关于Ruby编码方面的知识。
字符串可以使用不同的编码
在.NET中字符串的编码是一致的,Ruby允许字符串有不同的编码,当时我就在想:如果两个不同编码的字符串相加会出现什么结果?
测试程序
# coding: utf-8 str_utf8 = "hi 段"
puts str_utf8.size #
puts str_utf8.bytesize #
puts str_utf8 .encoding # UTF-8
str_utf8.each_byte {|b| print "%02X," % [b]} # 68,69,20,E6,AE,B5,
puts puts str_gb2312 = "hi 段".encode("gb2312")
puts str_gb2312.size #
puts str_gb2312.bytesize #
puts str_gb2312 .encoding # GB2312
str_gb2312.each_byte {|b| print "%02X," % [b]} # 68,69,20,B6,CE,
puts
输出结果
4
6
UTF-8
68,69,20,E6,AE,B5, 4
5
GB2312
68,69,20,B6,CE,
备注:UTF-8对英文采用1个字节,对中文采用三个字节。GB2312对英文采用1个字节,对中文采用两个字节。
编码转换
编码转换可以采用String::encode("目标编码名称")来完成,如果编码之间的转换兼容,返回编码后的字符串,否则会抛出编码转换异常。
测试程序
begin
puts "段".encode("ascii")
rescue Exception => e
puts e.class
end puts "段".encode("gb2312")
输出结果
Encoding::UndefinedConversionError
段
备注:encode会返回一个和元字符串序列一样的字符串序列,只是内部的字节序列改变了。
编码强制
编码强制是指在不改变字节序列的情况下改变对字节的解释方式,编码强制:String::force_encoding("强制编码")。
测试程序
utf8_str = "\xE6\xAE\xB5".encode("utf-8")
puts utf8_str.encoding() # UTF-8
puts utf8_str.size #
puts utf8_str.bytesize #
ascii_str = "\xE6\xAE\xB5".force_encoding("ascii")
puts ascii_str.encoding() # US-ASCII
puts ascii_str.size #
puts ascii_str.bytesize #
puts ascii_str.valid_encoding? # false
输出结果
UTF-8
1
3
US-ASCII
3
3
false
备注:String::valid_encoding?可以判定是否是有效的强制。
不同编码的字符串相加后是啥结果?
这个问题的答案很简单:如果两个字符串的编码兼容,则返回字符集最大的编码,否则跑出不兼容异常。你可以自己检查兼容性:Encoding.compatible?。
测试程序
str_ascii = "hi ".encode("ascii")
str_utf8 = "段"
puts str_ascii.encoding
puts str_utf8.encoding
puts Encoding.compatible?(str_ascii.encoding, str_utf8.encoding)
puts (str_ascii + str_utf8).encoding
puts (str_utf8 + str_ascii).encoding
运行结果
US-ASCII
UTF-8
UTF-8
UTF-8
UTF-8
一直没使用过的\u和\x
几乎所有的语言都支持这两个转义字符,允许我们使用\uXXXX指定Unicode码点对于的字符,通用也运行我们使用\xXX指定字节。
测试程序
puts "段" # 段
puts "\xE6\xAE\xB5" # 段
puts "\u6BB5" # 段
输出结果
# 段
# 段
# 段
使用Sublime开发Ruby时,输出到控制台的字符串为啥不能使用多种编码?
测试程序
puts "段"
puts "段".encode("GB2312")
在Sublime中的输出结果
[Decode error - output not utf-8]
在控制台的输出结果

原因分析
Sublime之所以失败是因为Sublime重定位了默认标准输出流,而重定位后的流不支持混合多种编码,说白了:你没法在一个文件中保存两种编码的字符串。
备注:Sublime中的失败不是Ruby导致的,是Sublime自身的问题。
如何解决?
Sublime默认只能接收UTF8编码,因此必须转换为UTF8编码。
# 默认是UTF8编码,不用处理。
puts "段"
# 执行windows命令必须使用GB2312编码。
command = "echo 段".encode("GB2312")
# 命令执行的结果想输出到Sublime必须使用UTF8编码。
puts `#{command}`.encode("utf-8")
输出结果
# 输出结果
段
段
备注
字符串、字符集和编码算是刚入门,有机会还得继续学习。
Ruby:字符集和编码学习总结的更多相关文章
- .NET:字符集和编码学习总结
背景 一直没有深入的学习字符集和编码的知识(现在也没有深入),今天查阅了一些资料,弄明白了一些事情,本文就简单记录一下. 字符集和编码 字符集是指一些符号组成的集合,编码是对指定字符集如何表示为字节的 ...
- WEB开发中的字符集和编码
html,body,div,span,applet,object,iframe,h1,h2,h3,h4,h5,h6,p,blockquote,pre,a,abbr,acronym,address,bi ...
- java中的字符集和编码
前言 上次对计算机中的“字符集”和“编码”分别进行了总结,并指出二者之间的区别,不要搞混了,不清楚的再回到上一章看一下.今天再总结下java中是如何使用字符集(主要是Unicode字符集,其他常用字符 ...
- Linux字符集和编码
计算机内部,所有信息最终都是一个二进制值形式存放 字符集 字符集:charset是character set的简写,即二进制和字符的对应关系,不关注最终的存储形式 编码 字符集编码:encoding是 ...
- C#和VC++字符集和编码
C# char 关键字用于声明 .NET framework 使用 Unicode 字符表示 System.Char 结构的实例. Char 对象的值是 16 位数字 (序号值.)将字符表示为 UTF ...
- Unicode字符集和编码方式
通常将一个标准中能够表示的所有字符的集合称为字符集,比如ISO/Unicode所定义的字符集为Unicode.在Unicode中,每个字符占据一个码位/Unicode 编号(用4位十六进制数表示,Co ...
- 字符集和编码——Unicode(UTF&UCS)深度历险
计算机网络诞生后,大家慢慢地发现一个问题:一个字节放不下一个字符了!因为需要交流,本地化的文字需要能够被支持. 最初的字符集使用7bit来存储字符,因为那时只需要存下一些英文字母和符号.后来虽然扩展到 ...
- 字符编码和字符集和编码引出的问题_FileReader读取GBK格式的文件
字符编码 计算机中鵆的信息都是用二进制数表示的,而我们在屏幕上看到的数字.英文.标点符号.汉子等字符都是二进制数转换之后的结果.按照某种规则,将字符存储到计算机中,称为编码.反之,将存储在计算机中的二 ...
- 字符集和编码II: fat/msdos/vfat (文件名乱码的问题)
具体到文件名乱码的问题,需要明确两点 第一,文件名作为一个字符串,需要被编码后存入文件系统: 第二,Linux内核无非是个特殊的应用程序,它读取文件名,再把文件名以编码后的形式传递出去. 但Linux ...
随机推荐
- 利用Fidder工具抓取App数据包
第一步:下载神器Fiddler,下载链接: http://fiddler2.com/get-fiddler 下载完成之后,傻瓜式的安装一下了! 第二步:设置Fiddler打开Fiddler, ...
- 洛谷P1789【Mc生存】插火把 题解
题目传送门 这道题目可以纯暴力: #include<bits/stdc++.h> //Minecraft 666 using namespace std; ][]; int n,m,k,a ...
- Codeigniter的一些优秀实践
最近准备接手改进一个别人用Codeigniter写的项目,虽然之前也有用过CI,但是是完全按着自己的意思写的,没按CI的一些套路.用在公众的项目,最好还是按框架规范来,所以还是总结一下,免得以后别人再 ...
- IEEEXtreme 10.0 - Checkers Challenge
这是 meelo 原创的 IEEEXtreme极限编程大赛题解 Xtreme 10.0 - Checkers Challenge 题目来源 第10届IEEE极限编程大赛 https://www.hac ...
- vim 图册
网上看到的一些图,感觉不错,分享一下 我现在感觉配置文件,很多没有必要,反而很花哨,但是这些基础的东西,反而很高效,实在 VIM的列编辑操作 删除列 1.光标定位到要操作的地方. 2.CTRL+v 进 ...
- [实战]MVC5+EF6+MySql企业网盘实战(24)——视频列表
写在前面 上篇文章实现了文档列表,所以实现视频列表就依葫芦画瓢就行了. 系列文章 [EF]vs15+ef6+mysql code first方式 [实战]MVC5+EF6+MySql企业网盘实战(1) ...
- 【LOJ】#2129. 「NOI2015」程序自动分析
题解 开始是想两个并查集的 和A相等,和A不相等 如果AB相等就连 A 相等,B相等 B不相等 A不相等 如果AB不相等就连 A不相等,B相等 B相等,A不相等 但是显然不对,因为和A不相等的不一定和 ...
- Python编程举例-装饰器
装饰器的通常用途是扩展已定义好的函数的功能 一个浅显的装饰器编程例子 #装饰器函数 def outer(fun): def wrapper(): #添加新的功能 print('验证') fun() r ...
- Java Web开发——HTML CSS JavaScript 杂记
HTML是一种在互联网上常见的网页制作标注性语言,并不能算作一种程序设计语言.因为它相对程序设计语言来说缺少了其应所有的特征.对于网站设计人员来说,只使用HTML是不够的,需要在页面中引入CSS样式. ...
- scrapy抓取拉勾网职位信息(七)——实现分布式
上篇我们实现了数据的存储,包括把数据存储到MongoDB,Mysql以及本地文件,本篇说下分布式. 我们目前实现的是一个单机爬虫,也就是只在一个机器上运行,想象一下,如果同时有多台机器同时运行这个爬虫 ...