• 系统:windows 64
  • 编译器:gcc version 8.1.0 (x86_64-posix-seh-rev0, Built by MinGW-W64 project)
  • 文本编辑器:notepad
  • 控制台:Cmder
  • 编程语言:C、Python

  首先,要想打印汉字,必须考虑到编码问题。在windows下,由于系统使用GBK编码,而GCC解析时使用UTF-8而会导致以下代码运行时出现乱码:

#include <stdio.h>

int main()
{
char *str = "你好,世界!"; printf("%s\n", str); return 0;
}

  解决方法为:使用“-fexec-charset=gbk”命令

  解决了编码问题,我们还需要了解几点:

  • char类型本质上是数字,占据一个字节(即八位),可以通过%d打印编码,通过%c打印字符
  • 在C语言中,一个汉字占据两个char类型
  • 汉字的两个char类型为负数
  • 在打印汉字时,它的两个char必须紧跟着

  根据这几点,我们可以打印出汉字以及它们的编码:

#include <stdio.h>
#include <string.h> int main()
{
// str为字符指针,指向一个字符字面量,这个字符字面量由'\0'结尾
char *str = "你好,世界!Hello, world!";
// chr为字符指针,指向str所指向的字符字面量的第一个字符的地址,即'你'字符的两个char中的第一个
char *chr = str; printf("%zu %s\n", strlen(str), str);
// 如果遇到'\0',说明字符串结束了
while (*chr != '\0')
{
// 如果chr的编码为负数,则说明遇到了一个汉字
if (*chr < 0)
{
// 打印汉字及汉字的编码
// 注意两个char必须紧紧跟着打印(%c%c),否则会打印出 ??
printf("%c%c: %d%d\n", *chr, *(chr+1), *(chr), *(chr+1));
// chr自增两个字节(因为每个汉字都由两个char组成)
chr += 2;
}
else
{
// 打印英文字符
printf("%c: %d\n", *chr, *chr);
// chr自增一个字节
++chr;
}
} return 0;
}

  从上图,我们可以看出,这个字符串占据了25个字节,4个汉字加2个全角符号占据了12个字节,再加上23个英文字符,总共25个字节。我们可以从下图更清晰地看出str的构造:

  但是,根据我们在网上查询的结果,汉字‘你’的GBK编码应为:C4E3,但是在这里,却打印出了:-60-29,这是为什么呢?

  这里涉及到进制的问题,可能-60-29是十六进制数C4E3的十进制数?

  首先,我们先通过Python看看C4E3的二进制数以及十进制数。这好像跟-60-29根本不沾边。

  我们先看看下面的代码,导入<limits.h>头文件,看看char类型的取值范围为多少:

#include <stdio.h>
#include <limits.h> int main()
{
printf("[%d ~ %d]\n", CHAR_MIN, CHAR_MAX);
printf("%c%c\n", 0xC4, 0xE3);return 0;
}

  我们可以看到:char类型的取值范围为[-128 ~ 127],但是我们却可以打印出汉字”你“。这是为什么呢?明明char的取值范围最多127,而汉字“你”的两个字符分别为:196和227,都超过了这个值。其实这是因为,C语言将这两个数字的二进制数作为负数处理。C中的char类型有1个字节,占8位,而它的最高位为符号位,当它为0时为正,1时则为负。C通过对正数做补码操作得到负数。补码,即对一个二进制数取反,然后再加1。比如,0xC4的二进制数为0b11000100,我们可以看到最高位1,在C中这个数就是负数。我们可以通过对这个二进制数做补码操作,得到0b00111100,即60。所以0b11000100在C中表示为-60。

  从以上,我们可以发现,GBK编码中,一个汉字占两字节。因为C中char类型只占一个字节,所以需要使用两个char类型来表示汉字。因为C中char为有符号类型,char的表示范围为[-128 ~ 127],所以在遇到大于127的数字时,会被char表示为负数。

  其实,我们还可以使用unsigned char来实现。char默认是有符号的,取值范围为:-128 ~127。而unsigned char的取值范围则为:0~255,那么汉字“你”的编码就会被显示为:196和227。

#include <stdio.h>
#include <string.h> int main()
{
// str为字符指针,指向一个字符字面量,这个字符字面量由'\0'结尾
unsigned char *str = (unsigned char *)"你好,世界!Hello, world!";
// chr为字符指针,指向str所指向的字符字面量的第一个字符的地址,即'你'字符的两个char中的第一个
unsigned char *chr = str; printf("%zu %s\n", strlen(str), str);
// 如果遇到'\0',说明字符串结束了
while (*chr != '\0')
{
// 如果chr的编码大于127,则说明遇到了一个汉字
if (*chr > 127)
{
// 打印汉字及汉字的编码
// 注意两个char必须紧紧跟着打印(%c%c),否则会打印出 ??
printf("%c%c: %d %d\n", *chr, *(chr+1), *(chr), *(chr+1));
// chr自增两个字节(因为每个汉字都由两个char组成)
chr += 2;
}
else
{
// 打印英文字符
printf("%c: %d\n", *chr, *chr);
// chr自增一个字节
++chr;
}
} return 0;
}

Resistance is Futile!

C语言 使用char字符实现汉字处理的更多相关文章

  1. 黑马程序员——C语言基础 char字符 数组

    Java培训.Android培训.iOS培训..Net培训.期待与您交流! (以下内容是对黑马苹果入学视频的个人知识点总结) (一)char类型 1)存储细节 ASCII单字节表(双字节GBK\GB2 ...

  2. Java 语言中一个字符占几个字节?

    Java中理论说是一个字符(汉字 字母)占用两个字节. 但是在UTF-8的时候 new String("字").getBytes().length 返回的是3 表示3个字节 作者: ...

  3. 【转载】C#怎么判断字符是不是汉字

    支持并尊重原创!原文地址:http://jingyan.baidu.com/article/2c8c281deb79ed0008252af1.html 判断一个字符是不是汉字通常有三种方法,第1种用 ...

  4. Atian inputmethod 输入法解决方案 方言与多语言多文字支持 英语汉字汉语阿拉伯文的支持 (au

    Atian inputmethod 输入法解决方案 方言与多语言多文字支持 英语汉字汉语阿拉伯文的支持 (au 1.1. Overview概论 支持母语优先的战略性产品,主要是针对不想以及不愿使用普通 ...

  5. 根据Unicode编码用C#语言把它转换成汉字的代码

    rt 根据所具有的Unicode编码用C#语言把它转换成汉字的代码 var s = System.Web.HttpUtility.HtmlDecode(Utf8Str); var o = Newton ...

  6. Swift3.0语言教程获取字符

    Swift3.0语言教程获取字符 Swift3.0语言教程获取字符,在字符串中获取某一下标位置(下标索引)处的字符是很常见的功能,在NSString中使用character(at:)方法实现,其语法形 ...

  7. 如何利用java把文件中的Unicode字符转换为汉字

    有些文件中存在Unicode字符和非Unicode字符,如何利用java快速的把文件中的Unicode字符转换为汉字而不影响文件中的其他字符呢, 我们知道虽然java 在控制台会把Unicode字符直 ...

  8. Regex 字符是不是汉字

    Regex   字符是不是汉字 一. 判断一个字符是不是汉字通常有三种方法: 1.用ASCII码判断 在 ASCII码表中,英文的范围是0-127,而汉字则是大于127 string text = & ...

  9. C 语言实例 - 查找字符在字符串中出现的次数

    C 语言实例 - 查找字符在字符串中出现的次数 C 语言实例 C 语言实例 查找字符在字符串中的起始位置(索引值从 开始). 实例 #include <stdio.h> int main( ...

随机推荐

  1. F5 Http monitor

    The BIG-IP HTTP health monitor attempts to mabtch the configured Receive String against the HTTP res ...

  2. CF1458D Flip and Reverse[题解]

    Flip and Reverse 题目大意 给定一个 \(01\) 字符串,有机会进行若干次操作,对于每一次操作: 选择该字符串的子串,要求是该子串内包含数量相同的 \(0\) , \(1\) 字符. ...

  3. 没事就要多做多练,Shell脚本循环例题做一做

    Shell脚本循环例题                 一.示例1                 二.示例2                 三.示例3                 四.示例4 ...

  4. java 实现中英文拼写检查和错误纠正?可我只会写 CRUD 啊!

    简单的需求 临近下班,小明忙完了今天的任务,正准备下班回家. 一条消息闪烁了起来. "最近发现公众号的拼写检查功能不错,帮助用户发现错别字,体验不错.给我们系统也做一个." 看着这 ...

  5. 在docker for windows建立mssql容器后,ssms连接mssql出现错误号码18456的问题

    在docker for windows建立mssql容器后,ssms连接mssql出现错误号码18456的问题 笔者提供一个可能会没考虑到的点. 请检查本机是否安装了mssql!!! 请检查本机的ms ...

  6. Jenkins 进阶篇 - 参数化构建

    我们在构建任务时经常会遇到这样的情景,一个任务配置好了以后,在后面的构建过程中,又会修改一些配置.例如,我们构建项目的代码可能是拉取指定的分支或者是Tag进行构建,又或者是在构建是需要指定特定的运行平 ...

  7. debian 9安装细节

    1.安装KDE桌面 2.开机桌面正常启动,首先在grub启动界面,按"e"键,在linux......quiet后面加上nomodeset,然后进入桌面,在终端输入: su -vi ...

  8. javascript学习五---OOP

    面向对象:JavaScript的所有数据都可以看成对象 JavaScript的面向对象编程和大多数其他语言如Java.C#的面向对象编程都不太一样.如果你熟悉Java或C#,很好,你一定明白面向对象的 ...

  9. 第二十六篇 -- wifi学习

    参考网址:https://blog.csdn.net/zwl1584671413/article/details/77936950 https://blog.csdn.net/Righthek/art ...

  10. jvm源码解读--16 锁_开头

    现在不太清楚, public static void main(String[] args) { Object object=new Object(); System.out.println(&quo ...