#include <iostream>
#include <string>
#include <locale>
#include <codecvt>
#include <fstream> int main(int argc, char *argv[])
{
std::wstring str = L"123,我是谁?我爱钓鱼岛!";
std::wstring_convert<std::codecvt_utf8<wchar_t>> conv;
std::string narrowStr = conv.to_bytes(str);
{
std::ofstream ofs ("c:\\test.txt");
ofs << narrowStr;
}
std::wstring wideStr = conv.from_bytes(narrowStr);
{
std::locale::global(std::locale("Chinese-simplified"));
std::wofstream ofs (L"c:\\testW.txt");
ofs << wideStr;
}

http://zh.cppreference.com/w/cpp/locale/codecvt_utf8

以前一直以为标准库的wofstream只能输出MBCS编码的文本文件,今日接触到codecvt后,知道自己完全错了。

研究一上午后,得出以下成果(均为自己读MSDN及实验得出)。注:以下代码及说明以VS2010为准。

先说codecvt头文件(gcc里没找到),这是MSDN的解释:http://msdn.microsoft.com/zh-cn/library/ee292114.aspx

里面包含了三个类:codecvt_utf8codecvt_utf8_utf16codecvt_utf16,以及一个枚举类型codecvt_mode

codecvt是用于不同文字编码转换的一个类,codecvt_utfX继承了这个类,实现了不同编码转换的功能。

codecvt与locale结合使用,实现输出、读取UTF-8及UTF-16编码文本文件。

例如UTF-8:

#include <iostream>
#include <codecvt>
#include <fstream>
#include <string> int main(void)
{
using namespace std;
auto LocUtf8=locale(locale(""),new codecvt_utf8<wchar_t>);
wofstream wfo(L"Hello.txt");
wfo.imbue(LocUtf8);
wfo << L"这是Utf-8编码的文本文件!";
wfo.close(); wifstream wfi(L"Hello.txt");
wstring wstr;
wfi.imbue(LocUtf8);
wfi >> wstr;
wcout.imbue(locale(""));
wcout << wstr << endl;
system("PAUSE");
}

static auto LocUtf8=locale(locale(""),new codecvt_utf8<wchar_t>);用codecvt_utf8实例化一个静态locale。codecvt_utf8<wchar_t>表示在输入输出时将wchar_t转换为UTF-8编码。至于new,与buffer类似不能析构,delete由locale自动管理。wfo.imbue(LocUtf8);表示wfo在输出文件时使用LocUtf8编码,wfi.imbue(LocUtf8)类似。注意不要使用locale::global,这样会影响到wcout。程序运行后会生成Hello.txt文件,其编码用记事本打开后点另存为,其默认编码为文件编码。
UTF-8是比较特殊的编码格式,识别不需bom。如果将上例的utf8直接改为utf16后运行也有结果,但用记事本打开乱码,UTF-16需要bom头用来识别编码格式。如下:

#include <iostream>
#include <codecvt>
#include <fstream>
#include <string> int main(void)
{
using namespace std;
auto LocUtf16=locale(locale(""),new codecvt_utf16<wchar_t, 1114111UL, generate_header>);
wofstream wfo(L"Hello.txt");
wfo.imbue(LocUtf16);
wfo << L"这是Utf-16编码的文本文件!";
wfo.close(); wifstream wfi(L"Hello.txt");
wstring wstr;
wfi.imbue(LocUtf16);
wfi >> wstr;
wcout.imbue(locale(""));
wcout << wstr << endl;
system("PAUSE");
}

差别在这句:new codecvt_utf16<wchar_t, 0x10ffff, generate_header>

看看codecvt_utf16的定义:
  template<
    class Elem, //需要转换的原编码格式,此为
    wchar_tunsigned long Maxcode = 0x10ffff,   //最大字符数,用处未知,照抄默认
    codecvt_mode Mode = (codecvt_mode)   //一个codecvt_mode枚举类型class codecvt_utf16 :
  >
  public std::codecvt<Elem, char, StateType>

再看

  codecvt_modeenum codecvt_mode {
    consume_header = , //自动确认bom头,在读取文件时检查。但经过尝试后无效,可能我的用法有误(文字没进来,但多了个换行符)
    generate_header = , //自动输出bom头,在输出文件时检查。
    little_endian = //使用little endian编码(默认big endian,具体解释查看百科)};多个参数使用|(位或)连接,结果强制转换为codecvt_mode型。
  }

例如little endian编码+自动输出bom头的声明如下:

new codecvt_utf16<wchar_t, 0x10ffff, codecvt_mode(generate_header | little_endian)>

推荐使用默认的big endian编码,little endian输出的换行符是一个方框注意:big endian编码的文件不能用little endian,反之亦然。应该能使用consume_header自动识别,但测试无效。

 

C++ STL std::wstring_convert处理UTF8的更多相关文章

  1. std::wstring_convert处理UTF8

    扔掉MultiByteToWideChar 吧,使用std::wstring_convert和 std::codecvt_utf8 来处理UTF8与WChar之间的互转. VC和Clang都支持哦~ ...

  2. 构造UTF8的std::string

    在VC++的世界里,MS比较鼓励使用_UNICODE,std::wstring.而在Web, XML则提倡用UTF8.当在C++的程序里要保存/读取XML数据,就存在wstring与string之间的 ...

  3. UTF8与std:string互转

    Ajax请求发送的UTF8编码字符串传到后台使用std:string进一步处理,如果包含中文会出现中文乱码的问题: 特找了一下转码的解决方法,直接代码如下:  C++ Code  1234567891 ...

  4. C++的标准模板库STL中实现的数据结构之链表std::list的分析与使用

    摘要 本文主要借助对C++的标准模板库STL中实现的数据结构的学习和使用来加深对数据结构的理解,即联系数据结构的理论分析和详细的应用实现(STL),本文是系列总结的第二篇.主要针对线性表中的链表 ST ...

  5. C++中字符编码的转换(Unicode、UTF-8、ANSI)

    C++的项目,字符编码是一个大坑,不同平台之间的编码往往不一样,如果不同编码格式用一套字符读取格式读取就会出现乱码.因此,一般都是转化成UTF-8这种平台通用,且支持性很好的编码格式. Unicode ...

  6. std::u32string conversion to/from std::string and std::u16string

    I need to convert between UTF-8, UTF-16 and UTF-32 for different API's/modules and since I know have ...

  7. STL 跨模块 调用 异常 解决

    本文为转载别人的,以作收藏之用 百度了一天,现在把结论放上边: 1.不要用STL(std::string属于STL)来跨模块传输数据,例如:dll(so)之间,dll(so)和exe(elf)之间. ...

  8. 使用WebGL实现一个Viewer来显示STL文件

    关键字:WebGL,STL,ThreeJS,Chrome,Viewer,Python3.4, HTML5,Canvas. OS:Windows 10. 本文介绍如何使用ThreeJS来实现一个WebG ...

  9. 使用UTF8-CPP转换unicode编码 附录:UTF8和UTF16和UTF32和Unicode编码

    本文用于解决如何用C++处理字符串的编码格式.本文采用的是成熟便捷的UTF8库来处理这个问题.首先是下载UTF8库,网址为:http://utfcpp.sourceforge.net/ 为了方便后续使 ...

随机推荐

  1. [Android Studio 权威教程]最有用的快捷键

    上篇中我们讲了Android Studio怎样加入插件.这篇我们讲讲AS的快捷键.这里我说明的快捷键都是最最有用的,希望刚刚加入AS的朋友尽快的熟悉一下这几个快捷键,这样能够帮助你提高coding的效 ...

  2. ZooKeeper 系列(一)—— ZooKeeper核心概念详解

    一.Zookeeper简介 二.Zookeeper设计目标 三.核心概念         3.1 集群角色         3.2 会话         3.3 数据节点         3.4 节点 ...

  3. Linux - 配置SSH免密通信 - “ssh-keygen”的基本用法

    目录 1 什么是SSH 2 配置SSH免密登录 2.1 安装必需的软件 2.2 ssh-keygen创建公钥-私钥对 2.3 ssh-copy-id把A的公钥发送给B 2.4 在A服务器上免密登录B服 ...

  4. servletResponse 控制浏览器缓存

    //当访问一些资源文件时,我们希望,访问一次后,资源文件能够在缓存在浏览器中,当我们再次访问该资源时 //直接从缓存中去取,这样可以减少服务器的压力 package response; import ...

  5. 全命令行手写MapReduce并且打包运行

    主要要讲的有3个 java中的package是干啥的? 工作了好几年的都一定真正理解java里面的package关键字,这里在写MapReduce需要进行打包的时候突然发现命令行下打包运行居然不会了, ...

  6. C++常用强制类型转换

    1.static_cast 最常用的类型转换符,在正常状况下的类型转换,如把int转换成float,如: int i; float f; f=(float)i; 或者 f=static_cast(i) ...

  7. 深入Asyncio(十一)优雅地开始与结束

    Startup and Shutdown Graceful 大部分基于asyncio的程序都是需要长期运行.基于网络的应用,处理这种应用的正确开启与关闭存在惊人的复杂性. 开启相对来说更简单点,常规做 ...

  8. 图像处理之全景拼接---基于sift的全景图像拼接

    http://blog.csdn.net/masibuaa/article/details/9246493#comments

  9. Android 超高仿微信图片选择器 图片该这么载入

    转载请标明出处:http://blog.csdn.net/lmj623565791/article/details/39943731,本文出自:[张鸿洋的博客] 1.概述 关于手机图片载入器,在当今像 ...

  10. vue入门(二) 让axios发送表单形式数据

    (一) 使用 axios vue-axios qs 1.qs是必不可少的插件 npm install --save axios vue-axios qs 2.安装完成后,在main.js插入以下代码 ...