借汇编之力窥探String背后的数据结构奥秘
熟悉C++、java、VB等编程语言的朋友都知道String(字符串),它是编程语言中表示文本的数据类型,字符串由若干字符组成的,是所有编程语⾔中⾮常重要的成员。可能很多朋友平时只是使用它,没有仔细研究其中的奥秘。其实,字符串还是有很多值得我们深入研究的地方
一、思考
在 Swift 开发使用字符串的过程中,你是否有思考过以下问题?
- 1 个字符串变量占用多少内存?
- 字符串 str1、str2 的底层存储有什么不同?
- 如果对 str1、str2 进行拼接操作,str1、str2 的底层存储又会发生什么变化?
如果你能准确地回答以上问题,那说明对 Swift 字符串的底层存储机制还是比较了解的。
二、1 个字符串变量占用多少内存?
方法 1:MemoryLayout
首先,可以借助 Swift 自带的 MemoryLayout 来测试一下
方法 2:汇编
另外,我们也可以借助一个强有力的底层分析助手—汇编语言,来窥探一下 String 的底层存储
- 实际上分析其他语法、系统库的底层,都可以借助汇编语言
- 比如多态的原理、泛型的原理、Array 的底层、枚举的底层等等
另外,不仅仅是 Swift,C、C++、OC 的底层分析,依然可以借助汇编语言
- 毕竟你写的每一行有效代码,最终都是要转成机器指令(0 和 1)
- 而机器指令是跟汇编指令一一对应的,每一条机器指令都能翻译成与之对应的汇编指令
- 能读懂汇编指令,就相当于能读懂机器指令,知道 CPU 具体在干嘛(操作了什么寄存器,操作了哪块内存)
- 本教程的代码是直接跑在 Mac 的命令行(CommandLineTools)项目上
- 因此展示的汇编代码是基于 X64 的 AT&T 格式汇编,并非 iOS 真机设备的 ARM 汇编
- 其实不同种类的汇编之间有极大的相似性,只是有些指令的叫法不一样
跟微软的 Visual Studio 一样,Xcode 也内置了非常方便的反汇编功能,可以轻松查看每一句代码对应的汇编指令,打开反汇编界面的步骤如下
- 在某一行需要调试的代码打上断点(反汇编界面会在断点调试状态下显示出来)
- 菜单:`Debug` > `Debug Workflow` > `Always Show Disassembly`
- `Assembly` 译为汇编, `Disassembly` 译为反汇编
- 运行程序,看到反汇编界面
如果你的反汇编经验十足,根据第 16、17 行的汇编就可以推敲出来,String 是占用 16 个字节
- 因为它用了 rax、rdx 寄存器存放字符串 str 的内容,而 rax、rdx 都是 8 字节的
汇编的内容太多了,因为时间和篇幅关系,文章里并不会对每一句汇编指令进行详细地讲解,更多的是想说明汇编的重要性。
三、字符串的底层存储
窥探内存
此前我写了个可以窥探 Swift 变量内存的小工具:https://github.com/CoderMJLee/Mems
- 现在用它来窥探下字符串的 16 字节里面,究竟存储着什么数据
- `Mems.memStr(ofVal:)` 默认情况下按照 8 个字节一组来显示内存数据
- 传递参数 `alignment: .one` 是按照 1 个字节一组来显示内存数据
字符 '0'~'9' 的 ASCII 值是 0x30~0x39,认真观察最初 str1 的 16 个字节数据,你发现了什么?
- 它直接将所有字符的 ASCII 值存储在 str1 的 16 字节中
- 最后 1 个字节 0xea 中的 0xa 就是字符的数量,也是共 10 个字符
拼接
可以发现,当对 str1 进行拼接 "ABCDE" 的时候
- 它最终是将 "0123456789ABCDE"十五个字符的 ASCII 值都存储在了 str1 的 16 字节中
- 最后 1 个字节 0xef 中的 0xf 就是字符的数量,也是共 15 个字符
- 可以看得出来,目前 16 个字节已经存满了,那如果再拼接 1 个字符呢?
可以看到,str1 里面存储的数据发生了非常大的变化,每一个字符的 ASCII 值不见了,
- 那里面的 16 字节具体是什么含义呢?
- 所有字符('0'~'9'、'A' 到 'F')的 ASCII 值又存到哪去了呢?
其他情况
如果一开始初始化的时候(未拼接之前),字符串的内容就是超过 15 个字符呢?
相信你能猜到是这个结果
- 这 16 个字节里面并没有出现任何一个字符的 ASCII 值
- 而且这 16 个字节跟 `第27行的str1` 还是有所区别
- 虽然它们的字符串内容都是"0123456789ABCDEF"
如果对 str2 进行拼接操作
不难发现:这时 str2 的 16 字节又发生了变化,跟 `第27行的str1` 是有点相似的
如何解决上述疑问?
上述的种种疑问,光看打印出来的内存数据是无法解决的,但是都可以利用【!!!汇编!!!】来解决,分析汇编指令,立马就得出结论,因为文章的篇幅有限,平时工作也比较忙,我把上述问题的详细剖析过程录制成了长达 2 个多小时的视频,有兴趣的朋友可以用 1.5~2 倍速度观看
- 链接:https://pan.baidu.com/s/1AkS3K1ZKP8zyxhlhLRaBkA
- 提取码:kzrk
- 视频对于没有汇编基础的朋友来说,可能会有点难度,最好挑一个头脑清醒的时间去观看
- 看完视频后,希望大家能够确切地感受到汇编语言的重要性,不要永远只停留在编写高级语言代码、沉迷于语法糖的层面。
四、最后
我们做的这么多,当然不仅仅是为了窥探字符串的底层。同数据结构与算法一样,汇编绝对是助你程序生涯更进一步的必备良方。不仅如此,掌握这些能力,你还能玩转软件破解、游戏外挂,这是我此前⽤【汇编\C++】编写的⼀个游戏外挂:https://github.com/CoderMJLee/SeemygoPVZCheater
在编程领域,字符串只是如同茫茫宇宙中的一颗行星,渺小而又伟大。等待我们发掘探索的东西还有很多。在未来,互联网还有更多领域需要编程完成。时代进步,软件也日新月异的发展,不学习就等于倒退,就会被时代淘汰。对程序员⽽⾔,唯有不断的探索学习更多技术,才能在这⽚领域中纵横遨游。
如果你想提升自己的能力、升职加薪、突破瓶颈,那一定要学习更多有关汇编及数据结构与算法等相关信息。如果想要深入了解,欢迎添加我的微信19950277730,这里不仅有与编程界大牛面对面的机会,更有⽆数免费编程技巧和技术提升秘籍,我们期待与您共同进步。
借汇编之力窥探String背后的数据结构奥秘的更多相关文章
- 深入浅出分析MySQL索引设计背后的数据结构
在我们公司的DB规范中,明确规定: 1.建表语句必须明确指定主键 2.无特殊情况,主键必须单调递增 对于这项规定,很多研发小伙伴不理解.本文就来深入简出地分析MySQL索引设计背后的数据结构和算法,从 ...
- MySQL索引背后的数据结构及算法原理【转】
本文来自:张洋的MySQL索引背后的数据结构及算法原理 摘要 本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题.特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持 ...
- MySQL 索引背后的数据结构及算法原理
本文转载自http://blog.jobbole.com/24006/ 摘要本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题.特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引 ...
- MySQL索引背后的数据结构及算法原理 (转)
摘要 本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题.特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如BT ...
- MySQL(二)索引背后的数据结构及算法原理
本文转载自CodingLabs,原文链接 MySQL索引背后的数据结构及算法原理 目录 摘要 一.数据结构及算法基础 1. 索引的本质 2. B-Tree和B+Tree 3. 为什么使用B-Tree( ...
- CodingLabs - MySQL索引背后的数据结构及算法原理
原文:CodingLabs - MySQL索引背后的数据结构及算法原理 首页 | 标签 | 关于我 | +订阅 | 微博 MySQL索引背后的数据结构及算法原理 作者 张洋 | 发布于 2011-10 ...
- 数据库(Mysql)背后的数据结构-学习
来吧,用这三篇文章夯实对Mysql的理解吧. 关于数据库索引及其优化,更多可参见此文:http://www.cnblogs.com/pkuoliver/archive/2011/08/17/mass- ...
- 【转】MySQL索引背后的数据结构及算法原理
摘要 本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题.特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如BT ...
- [转]MySQL索引背后的数据结构及算法原理
摘要 本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题.特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如BT ...
随机推荐
- CentOS7 下升级Python版本
来博客园的第一篇博客,以后要坚持养成记录.分享的习惯啊,这样生活才会有痕迹~ 服务器版本:CentOS 7.3 64位 旧Python版本:2.7.5 新Python版本:3.8.0 说明:本次配置使 ...
- centos7将python默认版本升级
想用centos7来写python,但是默认安装的是python2.7(python -v命令可以查看版本信息) 准备升级到python3.5.2 首先安装编译环境 yum -y install gc ...
- linux端口查询
常用端口 下面的表格中列举了包括在红帽企业 Linux 中的服务.守护进程.和程序所使用的最常见的通信端口.该列表还可以在 /etc/services 文件中找到.要查看由互联网号码分派局(IANA) ...
- Java基础(五)继承和多态
1.多态 先来看一个例子,其中Employee类是父类,Manager类继承了Employee类: public static void main(String[] args) { // constr ...
- python小例子(一)
参考链接:https://zhuanlan.zhihu.com/p/83998758?utm_source=qq&utm_medium=social&utm_oi=7282008528 ...
- Spring的几种初始化和销毁方法
一 指定初始化和销毁方法 通过@Bean指定init-method和destroy-method: @Bean(initMethod="init",destroyMethod=&q ...
- 利用span设置文字固定宽度
<input type="radio" name="dispMode" id="rdoManul" value="manul ...
- github实用的搜索小技巧
查资源,学习优秀的框架,搜索是一种能力! 作为程序猿开发中最大的同性交友网站,github当之无愧,里面有很多优秀的开源框架,各种技术大佬混迹其中,有他们总结的学习教程,造好的轮子(开发的各种工具,技 ...
- Security整合spring boot
Security整合spring boot 1.基础概念 Spring Security是一个能够为基于Spring的企业应用系统提供声明式的安全访问控制解决方案的安全框架.它提供了一组可以在Spri ...
- c#中关于string的特性介绍以及注意事项
前言 string类型在我们实际项目开发中是一个最使用的类型,string是一个引用类型这一点大家都知道,但是在实际使用过程中,大家会发现string和我们常见的引用类型使用还真不一样,看下面的一个简 ...