Rust字符串类型全解析
字符串是每种编程语言都绕不开的类型,
不过,在Rust
中,你会看到远比其他语言更加丰富多样的字符串类型。
如下图:
为什么Rust
中需要这么多种表示字符串的类型呢?
初学Rust
时,可能无法理解为什么要这样设计?为什么要给使用字符串带来这么多不必要的复杂性?
其实,Rust
中对于字符串的设计,优先考虑的是安全,高效和灵活,
所以在易用性方面,感觉没有其他语言(比如python,golang)那么易于理解和掌握。
本文尝试解释Rust
中的所有不同的字符串类型,以及它们各自的特点。
希望能让大家更好的理解Rust
为了安全和发挥最大性能的同时,是如何处理字符串的。
1. 机器中的字符串
我们代码中的字符串或者数字,存储在机器中,都是二进制,也就是0和1组成的序列。
程序将二进制数据转换为人类可读的字符串 需要两个关键信息:
- 字符编码
- 字符串长度
常见的编码有ASCII
,UTF-8
等等,编码就是二进制序列对应的字符,
比如,ASCII
是8位二进制对应一个字符,所以它最多只能表示256
种不同的字符。
而UTF-8
可以使用8位~32位二进制来表示一个字符,这意味着它可以编码超过一百万个字符,
包括世界上的每种语言和各种表情符号等复杂字符。
通过字符编码,我们可以将二进制和字符互相转换,
再通过字符串长度信息,我们将内存中的二进制转换为字符串时,就能知道何时停止。
Rust
中的字符串,统一采用UTF-8
编码,下面一一介绍各种字符串类型及其使用场景。
2. String 和 &str
String
和&str
是Rust
中使用最多的两种字符串类型,也是在使用中容易混淆的两种类型。
String
是分配在堆上的,可增长的UTF-8字符串,
它拥有底层的数据,并且在超出其定义的范围被自动清理释放。
let my_string = String::from("databook");
println!(
"pointer: {:p}, length: {}, capacity: {}",
&my_string,
my_string.len(),
my_string.capacity()
);
对于一个String
,主要部分有3个:
Pointer
:指向堆内存中字符串的起始位置Length
:有效字符串的长度Capacity
:字符串my_string
总共占用的空间
注意这里Length
和Capacity
的区别,Length
是my_string
中有效字符的长度,也就是字符串实际的长度;
Capacity
表示系统为my_string
分配的内存空间,一般来说,Capacity >= Length
。
通常不需要直接处理Capacity
,但它的存在对于编写高效且资源敏感的Rust
代码时很重要。
特别是,当你知道即将向String
添加大量内容时,可能会事先手动保留足够的Capacity
以避免多次内存重新分配。
&str
则是一个字符串的切片,它表示一个连续的字符序列,
它是一个借用类型,并不拥有字符串数据,只包含指向切片开头的指针和切片长度。
let my_str: &str = "databook";
println!("pointer: {:p}, length: {}", &my_str, my_str.len());
注意,&str
没有Capacity
方法,因为它只是一个借用,内容不可能增加。
最后,对于String
和&str
,使用时建议:
- 在运行时动态创建或修改字符串数据时,请使用
String
- 读取或分析字符串数据而不对其进行更改时,请使用
&str
3. Vec[u8] 和 &[u8]
这两种形式是将字符串表示位字节的形式,其中Vec[u8]
是字节向量,&[u8]
是字节切片。
它们只是将字符串中的各个字符转换成字节形式。
as_bytes
方法可将&str
转换为&[u8]
;
into_bytes
方法可将String
转换为Vec<u8>
。
let my_str: &str = "databook";
let my_string = String::from("databook");
let s: &[u8] = my_str.as_bytes();
let ss: Vec<u8> = my_string.into_bytes();
println!("s: {:?}", s);
println!("ss: {:?}", ss);
/* 运行结果
s: [100, 97, 116, 97, 98, 111, 111, 107]
ss: [100, 97, 116, 97, 98, 111, 111, 107]
*/
在UTF-8编码中,每个英文字母对应1个字节,而一个中文汉字对应3个字节。
let my_str: &str = "中文";
let my_string = String::from("中文");
let s: &[u8] = my_str.as_bytes();
let ss: Vec<u8> = my_string.into_bytes();
println!("s: {:?}", s);
println!("ss: {:?}", ss);
/* 运行结果
s: [228, 184, 173, 230, 150, 135]
ss: [228, 184, 173, 230, 150, 135]
*/
Vec[u8]
和&[u8]
以字节的形式存储字符串,不用关心字符串的具体编码,
这在网络中传输二进制文件或者数据包时非常有用,可以有效每次传输多少个字节。
4. str 系列
str
类型本身是不能直接使用的,因为它的大小在编译期无法确定,不符合Rust
的安全规则。
但是,它可以与其他具有特殊用途的指针类型一起使用。
4.1. Box<str>
如果需要一个字符串切片的所有权(&str
是借用的,没有所有权),那么可以使用Box
智能指针。
当你想要冻结字符串以防止进一步修改或通过删除额外容量来节省内存时,它非常有用。
比如,下面的代码,我们将一个String
转换为Box<str>
,
这样,可以确保它不会在其他地方被修改,也可以删除它,因为Box<str>
拥有字符串的所有权。
let my_string = String::from("databook");
let my_box_str = my_string.into_boxed_str();
println!("{}", my_box_str);
// 这一步会报错,因为所有权已经转移
// 这是 Box<str> 和 &str 的区别
// println!("{}", my_string);
4.2. Rc<str>
当你想要在多个地方共享一个不可变的字符串的所有权,但是又不克隆实际的字符串数据时,
可以尝试使用Rc<str>
智能指针。
比如,我们有一个非常大的文本,想在多个地方使用,又不想复制多份占用内存,可以用Rc<str>
。
let my_str: &str = "very long text ....";
let rc_str1: Rc<str> = Rc::from(my_str);
let rc_str2 = Rc::clone(&rc_str1);
let rc_str3 = Rc::clone(&rc_str1);
println!("rc_str1: {}", rc_str1);
println!("rc_str2: {}", rc_str2);
println!("rc_str3: {}", rc_str3);
/* 运行结果
rc_str1: very long text ....
rc_str2: very long text ....
rc_str3: very long text ....
*/
这样,在不实际克隆字符串数据的情况下,让多个变量拥有其所有权。
4.3. Arc<str>
Arc<str>
与Rc<str>
的功能类似,主要的区别在于Arc<str>
是线程安全的。
如果在多线程环境下,请使用Arc<str>
。
let my_str: &str = "very long text ....";
let arc_str: Arc<str> = Arc::from(my_str);
let mut threads = vec![];
let mut cnt = 0;
while cnt < 5 {
let s = Arc::clone(&arc_str);
let t = thread::spawn(move || {
println!("thread-{}: {}", cnt, s);
});
threads.push(t);
cnt += 1;
}
for t in threads {
t.join().unwrap();
}
/* 运行结果
thread-0: very long text ....
thread-3: very long text ....
thread-2: very long text ....
thread-1: very long text ....
thread-4: very long text ....
*/
上面的代码中,在5个线程中共享了字符串数据。
上面运行结果中,线程顺序是不固定的,多执行几遍会有不一样的顺序。
4.4. Cow<str>
Cow
是Copy-on-Write
(写入时复制)的缩写,
当你需要实现一个功能,根据字符串的内容来决定是否需要修改它,使用Cow
就很合适。
比如,过滤敏感词汇时,我们把敏感词汇替换成xx
。
fn filter_words(input: &str) -> Cow<str> {
if input.contains("sb") {
let output = input.replace("sb", "xx");
return Cow::Owned(output);
}
Cow::Borrowed(input)
}
当输入字符串input
中含有敏感词sb
时,会重新分配内存,生成新字符串;
否则直接使用原字符串,提高内存效率。
5. CStr 和 CString
CStr
和CString
是与C语言交互时用于处理字符串的两种类型。
CStr
用于在Rust
中安全地访问由C语言分配的字符串;
而CString
用于在Rust
中创建和管理可以安全传递给C语言函数的字符串。
C风格的字符串与Rust
中的字符串实现方式不一样,
比如,C语言中的字符串都是以null
字符\0
结尾的字节数组,这点就与Rust
很不一样。
所以Rust单独封装了这两种类型(CStr
和CString
),可以安全的与C语言进行字符串交互,从而实现与现有的C语言库和API无缝集成。
6. OsStr 和 OsString
OsStr
和 OsString
是用于处理与操作系统兼容的字符串类型。
主要用于需要与操作系统API进行交互的场景,这些API一般特定于平台的字符串编码(比如Windows
上的UTF-16
,以及大多数Unix-like
系统上的UTF-8)
。
OsStr
和OsString
也相当于str
和String
的关系,所以OsStr
一般不直接在代码中使用,
使用比较多的是&OsStr
和OsString
。
这两个类型一般用于读取/写入操作系统环境变量或者与系统API交互时,帮助我们确保字符串以正确的格式传递。
7. Path 和 PathBuf
这两个类型看名字似乎和字符串关系不大,实际上它们是专门用来处理文件路径字符串的。
在不同的文件系统中,对于文件路径的格式,路径中允许使用的字符都不一样,比如,windows
系统中文件路径甚至不区分大小写。
使用Path
和 PathBuf
,我们编码时就不用分散精力去关心具体使用的是哪种文件系统。
Path
和PathBuf
的主要区别在于可变性和所有权,
如果需要频繁读取和查询路径信息而不修改它,Path
是一个好选择;
如果需要动态构建或修改路径内容,PathBuf
则更加合适。
8. 总结
总之,Rust
中字符串类型之所以多,是因为根据不同的用途对字符串类型做了分类。
这也是为了处理不同的应用场景时让程序发挥最大的性能,毕竟,安全和高性能一直是Rust
最大的卖点。
Rust字符串类型全解析的更多相关文章
- PHP入门基础(一)——标记风格、注释、表单获取、字符串类型、变量解析
PHP标记风格: //XML风格//推荐的标记风格,可以在XML文档中使用 <?php echo '<p>XML Style</p>'; ?> //简短风格——需启 ...
- MySQL字段类型最全解析
前言: 要了解一个数据库,我们必须了解其支持的数据类型.MySQL 支持大量的字段类型,其中常用的也有很多.前面文章我们也讲过 int 及 varchar 类型的用法,但一直没有全面讲过字段类型,本篇 ...
- Oracle中Clob类型处理解析:ORA-01461:仅可以插入LONG列的LONG值赋值
感谢原作者:破剑冰-Oracle中Clob类型处理解析 上一篇分析:ORA-01461: 仅能绑定要插入 LONG 列的 LONG 值 最近为Clob字段在插入数据时发现当字符的字节数(一个半角字符一 ...
- jQuery Ajax 实例 全解析
jQuery Ajax 实例 全解析 jQuery确实是一个挺好的轻量级的JS框架,能帮助我们快速的开发JS应用,并在一定程度上改变了我们写JavaScript代码的习惯. 废话少说,直接进入正题,我 ...
- jQuery Ajax 全解析
转自:http://www.cnblogs.com/qleelulu/archive/2008/04/21/1163021.html 本文地址: jQuery Ajax 全解析 本文作者:QLeelu ...
- javascript ajax 脚本跨域调用全解析
javascript ajax 脚本跨域调用全解析 今天终于有点时间研究了一下javsscript ajax 脚本跨域调用的问题,先在网上随便搜了一下找到一些解决的办法,但是都比较复杂.由是转到jqu ...
- 你不知道的JavaScript--Item22 Date对象全解析
本篇主要介绍 Date 日期和时间对象的操作. 1. 介绍 1.1 说明 Date对象,是操作日期和时间的对象.Date对象对日期和时间的操作只能通过方法. 1.2 属性 无: Date对象对日期和时 ...
- oracle提高查询效率的34个方面全解析
oracle提高查询效率的34个方面全解析 在一个数据库中进行操作的时候,效率是很重要的,那么,如何提高oracle的查询效率呢?笔者将从以下几个方面进行详细解析: 1.选择最有效率的表名顺序(只 ...
- Android图片载入框架最全解析(一),Glide的基本使用方法
转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/53759439 本文同步发表于我的微信公众号.扫一扫文章底部的二维码或在微信搜索 郭 ...
- PHP 类与对象 全解析(三)
目录 PHP 类与对象 全解析( 一) PHP 类与对象 全解析( 二) PHP 类与对象 全解析(三 ) 13.魔术方法 定义:PHP把所有以__(两个下划线)开头的类方法当成魔术方法 __ ...
随机推荐
- Midnight Commander (MC)
Midnight Commander GNU Midnight Commander 是一个可视化文件管理器,根据 GNU 通用公共许可证获得许可,因此有资格成为自由软件.它是一个功能丰富的全屏文本模式 ...
- jfinal实验体会
这次实验我使用的是vue前端+jfinal后端,出现了非常多的问题,因此也花费了我不少时间.在一开始啃jfinal的文档的时候,我感觉jfinal是一个和springboot非常类似的框架,但是使用中 ...
- (一)MOngoDB的安装与配置(Windows和Centos)
其实Windows的安装没有什么难的,主要是后的Centos下的安装,我是在centos7上安装测试的,不管是手动安装还是脚本安装我都是成功才发出来的,有什么的问题可以留言,写博客只是为了记录和简单的 ...
- 【Vue】07 Webpack Part3 Loader
Loader是Webpack的核心概念: 除了JS文件以外我们还有CSS,图片,包括一些ES6规范的代码 或者是TypeScript各种前端类型的文件 但是最终必须统一转换成JS文件,Webpack本 ...
- A* 算法、PathFinding问题中的 allow diagonal 和 don't cross corners,以及 .map文件格式(续)
前文: A* 算法.PathFinding问题中的 allow diagonal 和 don't cross corners,以及 .map文件格式 上篇讲了些关于地图文件 .map 的介绍,本文主要 ...
- 在Ubuntu18.04系统中源码安装 gcc7.3.0
本文给出源码安装gcc7.3.0的方法. 依赖的环境安装到自建文件夹下, 给出下面操作中环境的安装文件夹: /home/devilmaycry/anaconda3/mindspore_envs这个路径 ...
- 从hp的暗影精灵4来看移动cpu的实际性能表现与官方出厂性能数据之间的差距
手上有一款暗影精灵4的笔记本,CPU为i7-9750H,官方给出的睿频为4.5Ghz,但是自己使用过程中最高睿频只能达到3.9Ghz与4.1Ghz之间,根本就没有超过4.1Ghz的时候. (图的原网址 ...
- baselines算法库common/tile_images.py模块分析
该模块只有一个函数,全部内容: import numpy as np def tile_images(img_nhwc): """ Tile N images into ...
- java中sleep与 yield 区别
1.背景 在多线程的使用中你会看到这个两个方法sleep()与yield()这两方法有什么作用呢? 请看下面案例演示 2.测试 package com.ldp.demo01; import com.c ...
- DolphinScheduler分布式集群部署指南(小白版)
官方文档地址:https://dolphinscheduler.apache.org/zh-cn/docs/3.1.9 DolphinScheduler简介 摘自官网:Apache DolphinSc ...