字符串处理 - ANSI - Unicode

#include <stdio.h>

#include <windows.h>

#include <locale.h>

#define BUFF_SIZE 1024 

wchar_t * ANSIToUnicode( const char* str )

{

     int textlen ;

     wchar_t * result;

     textlen = MultiByteToWideChar( CP_ACP, 0, str,-1, NULL,0 );

     result = (wchar_t *)malloc((textlen+1)*sizeof(wchar_t));

     memset(result,0,(textlen+1)*sizeof(wchar_t));

     MultiByteToWideChar(CP_ACP, 0,str,-1,(LPWSTR)result,textlen );

     return result;

} 

char * UnicodeToANSI( const wchar_t* str )

{

     char* result;

     int textlen;

     textlen = WideCharToMultiByte( CP_ACP, 0, str, -1, NULL, 0, NULL, NULL );

     result =(char *)malloc((textlen+1)*sizeof(char));

     memset( result, 0, sizeof(char) * ( textlen + 1 ) );

     WideCharToMultiByte( CP_ACP, 0, str, -1, result, textlen, NULL, NULL );

     return result;

} 

wchar_t * UTF8ToUnicode( const char* str )

{

     int textlen ;

     wchar_t * result;

     textlen = MultiByteToWideChar( CP_UTF8, 0, str,-1, NULL,0 );

     result = (wchar_t *)malloc((textlen+1)*sizeof(wchar_t));

     memset(result,0,(textlen+1)*sizeof(wchar_t));

     MultiByteToWideChar(CP_UTF8, 0,str,-1,(LPWSTR)result,textlen );

     return result;

} 

char * UnicodeToUTF8( const wchar_t* str )

{

     char* result;

     int textlen;

     textlen = WideCharToMultiByte( CP_UTF8, 0, str, -1, NULL, 0, NULL, NULL );

     result =(char *)malloc((textlen+1)*sizeof(char));

     memset(result, 0, sizeof(char) * ( textlen + 1 ) );

     WideCharToMultiByte( CP_UTF8, 0, str, -1, result, textlen, NULL, NULL );

     return result;

}

/*宽字符转换为多字符Unicode - ANSI*/

char* w2m(const wchar_t* wcs)

{

      int len;

      char* buf;

      len =wcstombs(NULL,wcs,0);

      if (len == 0)

          return NULL;

      buf = (char *)malloc(sizeof(char)*(len+1));

      memset(buf, 0, sizeof(char) *(len+1));

      len =wcstombs(buf,wcs,len+1);

      return buf;

}

/*多字符转换为宽字符ANSI - Unicode*/

wchar_t* m2w(const char* mbs)

{

      int len;

      wchar_t* buf;

      len =mbstowcs(NULL,mbs,0);

      if (len == 0)

          return NULL;

      buf = (wchar_t *)malloc(sizeof(wchar_t)*(len+1));

      memset(buf, 0, sizeof(wchar_t) *(len+1));

      len =mbstowcs(buf,mbs,len+1);

      return buf;

} 

char* ANSIToUTF8(const char* str)

{

     return UnicodeToUTF8(ANSIToUnicode(str));

} 

char* UTF8ToANSI(const char* str)

{

     return UnicodeToANSI(UTF8ToUnicode(str));

} 

int main()

{

     /*使用wcstombs和mbstowcs之前必须调用setlocale，以便决定内码*/

     setlocale(LC_ALL,".936");

     /*假定有一个Unicode(UTF-16LE)编码的文件，将其打开，重新编码为ANSI

，写入aa.txt中，再继续编码回Unicode，写入aw.txt中*/

     /*如果不存在a.txt文件，则程序出错，没有做错误处理*/

     char* filename = "a.txt";

     char* filenamea = "aa.txt";

     char* filenamew = "aw.txt";

     FILE*     input=fopen( filename, "rb");

     FILE*     inputa=fopen( filenamea, "wb");

     FILE*     inputw=fopen( filenamew, "wb");

     wchar_t * buf ;

     /*BOE设置，UTF-16LE的BOE为FEFF，如果不先将其读取出来，wcstombs会调用失败*/

     fgetwc(input);

     fputwc(0xFEFF,inputw);

     /*开始读取文件*/

     while(!feof(input))

     {

        buf = (wchar_t *)malloc(sizeof(wchar_t)*BUFF_SIZE)         ;

        memset(buf,    0, sizeof(wchar_t) * BUFF_SIZE );

        fgetws(buf,    BUFF_SIZE,    input);

        fputs(w2m(buf),    inputa);

        fputws(m2w(w2m(buf)),    inputw);

     }

     /*后续处理*/

     fclose(input);

     fclose(inputa);

     fclose(inputw);

     free(buf); 

     return 0;

}

字符串处理 - ANSI - Unicode - UTF8 转换的更多相关文章

各种字符编码方式详解及由来(ANSI,UNICODE,UTF-8,GB2312,GBK)
一直对字符的各种编码方式懵懵懂懂,什么ANSI UNICODE UTF-8 GB2312 GBK DBCS UCS……是不是看的很晕,假如您细细的阅读本文你一定可以清晰的理解他们.Let's go! ...
编码占用的字节数 1 byte 8 bit 1 sh 1 bit 中文字符编码 2. 字符与编码在程序中的实现变长编码 Unicode UTF-8 转换在网络上传输保存到磁盘上 bytes
小结: 1.UNICODE 字符集编码的标准有很多种,比如:UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig 等: 2 服务器->网页 utf-8 ...
python 保存文本txt格式之总结篇,ANSI,unicode,UTF-8
aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAAA4wAAAEmCAIAAACmsIlUAAAgAElEQVR4nOydezxU+f/HP49WSstKkZ
Unicode UTF-8 转换
Unicode是类似“U+4E25”或“\u4E25”的编码方式,很多情况下是4个十六进制的数,有时候不止. Unicode编码系统可分为编码方式和实现方式两个层次: 编码方式:“严”的Unicode ...
[Python] 中文编码问题：raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题
最近研究搜索引擎.知识图谱和Python爬虫比较多,中文乱码问题再次浮现于眼前.虽然市面上讲述中文编码问题的文章数不胜数,同时以前我也讲述过PHP处理数据库服务器中文乱码问题,但是此处还是准备简单做下 ...
趣谈unicode，ansi，utf-8，unicode big endian这些编码有什么区别（转载）
从头讲讲编码的故事.那么就让我们找个草堆坐下,先抽口烟,看看夜晚天空上的银河,然后想一想要从哪里开始讲起.嗯,也许这样开始比较好…… 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同 ...
【转】【编码】ANSI,ASCII,Unicode,UTF8之一
不同的国家和地区制定了不同的标准,由此产生了 GB2312.GBK.GB18030.Big5.Shift_JIS 等各自的编码标准.这些使用多个字节来代表一个字符的各种汉字延伸编码方式,称 ...
[转]unicode，ansi，utf-8，unicode big endian的故事
unicode,ansi,utf-8,unicode big endian的故事很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状态是好的 ...
趣谈unicode，ansi，utf-8，unicode big endian这些编码有什么区别
从头讲讲编码的故事.那么就让我们找个草堆坐下,先抽口烟,看看夜晚天空上的银河,然后想一想要从哪里开始讲起.嗯,也许这样开始比较好…… 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同 ...

随机推荐

XmlBeanDefinitionReader
如何让Dev支持c++11特性
1.点击工具选择编译选项 2.在编译时加入以下命令点击之后再将-std=c++11加入,点击确定就ok了
sourcetree的安装
参考博文: SourceTree安装教程和GitLab配置详解关于Atlassian无法注册的问题 SourceTree跳过Atlassian账号,免登陆,跳过初始设置 sourcetree跳过注册 ...
获取url特定字后面的参数
var type = getUrlParam('type') ?getUrlParam('type' ):'' ; //获取url中的参数 function getUrlParam( name) { ...
Laravel框架的学习
用xampp环境 1.Composer的安装 http://www.phpcomposer.com/ 下载Composer的安装exe php.ini中extension_dir.browscap路径 ...
Photoshop 更换证件照底色
1.打开photoshop CS6. 2.打开照片 (上栏)文件---->打开或者,直接把照片拖进ps中. 3.复制图层右击背景,点击复制图层 (复制图层的作用是,如果对图层操作错误,可以 ...
一次C语言编程遇到的问题总结
今天用C语言做了一个简单的用户登录注册存取款等功能的系统,发现有很多功能并不会实现,大概是使用Java太多了导致许多C的知识都忘记了,现在把碰到的问题总结如下: 1.字符串复制问题 java等一些编程 ...
Hadoop完全高可用集群安装
架构图(HA模型没有SNN节点) 用vm规划了8台机器,用到了7台,SNN节点没用 NN DN SN ZKFC ZK JNN RM NM node1 * * node2 * ...
tornado+peewee-async+peewee+mysql（一）
前言: 需要异步操作MySQL,又要用orm,使用sqlalchemy需要加celery,觉得比较麻烦,选择了peewee-async 开发环境 python3.6.8+peewee-async0.5 ...
Django——HttpResponse()
HttpResponse(content, #返回给视图函数的内容 content_type=None,#返回给视图函数的类型 text/html文本.text/plain.css.js.xml.js ...

字符串处理 - ANSI - Unicode - UTF8 转换

字符串处理 - ANSI - Unicode - UTF8 转换的更多相关文章

随机推荐

热门专题