这里用到的读取utf8文件的思路特别朴素.先把utf8文件按char读取到内存里.因为utf8是变长的,为了处理方便,在内存里把char转化成wchar_t,这样一个字符就是一个wchar_t.把utf8文件转成wchar_t的字符串之后,可以进行各种操作,比如统计非中文字符,对齐等.当然也包含要显示wchar_t.windows的命令行不能直接显示wchar_t字符,想显示必须再把wchar_t转成gbk或者utf8.

看C28ShowWchar.c的代码:

//utf-8编码

#include <stdio.h>

#include <windows.h>

char* unicode2Utf8(wchar_t* unicodeStr) {

	int cStrLen = WideCharToMultiByte(CP_UTF8, 0, unicodeStr, -1, NULL, 0, NULL, NULL);

	char* cStr = (char*)malloc(sizeof(char) * (cStrLen + 1));

	WideCharToMultiByte(CP_UTF8, 0, unicodeStr, -1, cStr, cStrLen + 1, NULL, NULL);

	*(cStr + cStrLen) = '\0';

	return cStr;

}

void main() {

	wchar_t* unicodeStr = L"中国";

	char* utf8Str = unicode2Utf8(unicodeStr);

	printf("%s\n", utf8Str);

	getchar();

}

打开VS的"开发人员命令提示符",执行下面命令把命令行的编码设置成utf8:

CHCP 65001

再把字体设置成"Lucida Console"

然后用下面命编译链接

cl C28ShowWchar.c /source-charset:utf-8

/source-charset:utf-8表示编码是utf8.再运行生成的可执行文件就能看到"中国"两个汉字.

再看源代码C29ShowWchar1.c

//utf-8编码

#include <stdio.h>

#include <windows.h>

char* unicode2gbk(wchar_t* unicodeStr) {

	int cStrLen = WideCharToMultiByte(CP_ACP, 0, unicodeStr, -1, NULL, 0, NULL, NULL);

	char* cStr = (char*)malloc(sizeof(char) * (cStrLen + 1));

	WideCharToMultiByte(CP_ACP, 0, unicodeStr, -1, cStr, cStrLen + 1, NULL, NULL);

	*(cStr + cStrLen) = '\0';

	return cStr;

}

void main() {

	wchar_t* unicodeStr = L"中国";

	char* gbkStr = unicode2gbk(unicodeStr);

	printf("%s\n", gbkStr);

	getchar();

}

CP_ACP表示windows默认的ANSI code page,对于简体中文就是gbk.按ctrl+F5就能看到"中国"两个汉字.

读取utf8文件的思路就是先按char把文件读到char类型的链表里.读完后把链表里的char放到一个char型的数组里.再把char型的数组转化成unicode.

源代码如下:

https://github.com/zhouyang209117/CppTutorial/blob/master/C/Win32Api/ch02/C22ReadUtf8File.c

参考资料

微软官方文档fopen_s, _wfopen_s

WideCharToMultiByte function

windows程序设计03_读取utf8文件的更多相关文章

解決BufferedReader读取UTF-8文件中文乱码
解決BufferedReader读取UTF-8文件中文乱码 File rst01 = new File(context.getRealPath("/")+" ...
python 读取utf8文件
有时候默认是gbk编码,但是要读取utf8文件,所以会出现decode 错误. 使用codecs模块: import codecs file = codecs.open('filename','r', ...
解決BufferedReader读取UTF-8文件中文乱码(转)
读取txt文件乱码 BufferedReader read = new BufferedReader(new FileReader(new File(filename))); 解决办法: InputS ...
windows下读取utf-8文件
#include <stdio.h> #include <tchar.h> #include <memory> int main() { FILE* fp1 = f ...
c++ 读取 utf-8 文件到 string
#include <iostream> #include <assert.h> #include <fstream> #include <string> ...
Java读取Unicode文件（UTF-8等）时碰到的BOM首字符问题，及处理方法
转载:https://blog.csdn.net/clementad/article/details/47168573 2015-18-01修改:增加 apache commons io 处理方法. ...
Java读取Unicode文件（UTF-8等）时碰到的BOM首字符问题
在Windows下用文本编辑器创建的文本文件,如果选择以UTF-8等Unicode格式保存,会在文件头(第一个字符)加入一个BOM标识. 这个标识在Java读取文件的时候,不会被去掉,而且Stri ...
Java读取UTF-8格式文件第一行出现乱码——问号“?”及解决 And Java读带有BOM的UTF-8文件乱码原因及解决方法
測试样例: Java读取UTF-8的txt文件第一行出现乱码"?"及解决 test.txt文件内容: 1 00:00:06,000 --> 00:00:06,010 < ...
读取xml文件报错：Invalid byte 2 of 2-byte UTF-8 sequence。
程序读取xml文件后,系统报“Invalid byte 2 of 2-byte UTF-8 sequence”错误,如何解决呢? 1.程序解析xml的时候,出现Invalid byte 2 of 2- ...

随机推荐

配置SElinux环境，将SELinux设置为enforcing
SELinux是美国国家安全局 (NSA) 对于强制访问控制的实现 =>可以使root受限的权限关闭SELinux=>修改配置文件,永久生效; sed -i 's/SELINUX=e ...
Python 面向对象-上篇
概述面向过程:根据业务逻辑从上到下写垒代码函数式:将某功能代码封装到函数中,日后便无需重复编写,仅调用函数即可面向对象:对函数进行分类和封装,让开发“更快更好更强...” 面向过程编程最易被初学 ...
vue项目引入自定义.css的样式文件
ES6的引入方式: .vue文件中 css文件引入 <template></template> <style scoped> @import "../as ...
goland学习-go常用命令使用
goland学习-go常用命令使用 1.跨平台编译:env GOOS=linux GOARCH=amd64 go build 2.获取go第三方包:go get -u github.com/go-sq ...
[Ubuntu篇] 在ubuntu上源码编译gtest，编写gtest-config.cmake并测试
本文首发于个人博客https://kezunlin.me/post/4a1427cf/,欢迎阅读! compile gtest on ubuntu 16.04 Guide compile gtest ...
Flex利用JavaScript执行cmd命令
Flex: //注册js事件 protected function init():void { ExternalInterfa ...
linux basic
一:date 语法: 打印日期:date [OPTION]..... [+FORMAT] 设定日期:date [MMDDhhmm] [[cc][YY][.ss] 创建带实时日期的文件 touch $ ...
X86架构CPU常识（主频，外频，FSB，cpu位和字长，倍频系数，缓存，CPU扩展指令集，CPU内核和I/O工作电压，制造工艺，指令集，超流水线与超标量）
1.主频主频也叫时钟频率,单位是MHz,用来表示CPU的运算速度. CPU的主频＝外频×倍频系数.很多人认为主频就决定着CPU的运行速度,这不仅是个片面的,而且对于服务器来讲,这个认识也出现了偏差. ...
Java基础部分（11~20）
11."=="和 equals 方法究竟有什么区别? (单独把一个东西说清楚,然后再说清楚另一个,这样,它们的区别自然就出来了,混在一起说,则很难说清楚) ==操作符专门用来比较两 ...
json注记
Javascript支持的转换方式 eval('(' + jsonstr + ')'); //可以将json字符串转换成json对象,注意需要在json字符外包裹一对小括号注:ie8(兼容模式), ...

windows程序设计03_读取utf8文件

参考资料

windows程序设计03_读取utf8文件的更多相关文章

随机推荐

热门专题