字符集转换字符类型转换 utf-8 gb2312 url

vs默认是GB2312编码，你看到的程序源代码是，输出结果是，内部存储是，

1 如果你想改变内部存储可以用下面的这些函数

2 如果你想改变源代码的存储方式你可以用文本编辑工具修改之后重新编译

3 如果你想修改输出编码，你还没发让她输出UTF-8的目前

4 但是这并不影响你的程序跨平台的处理，因为你总是将任何字符类型的编码字符串保存在单字节的string中，如果你知道需要处理固定双字节的字符，你可以使用wstring

strCoding.h

//这是个类strCoding (strCoding.h文件)

#pragma once

#include <iostream>

#include <string>

#include <windows.h>

using namespace std;

class strCoding

{

public:

	strCoding(void);

	~strCoding(void);

	void UTF_8ToGB2312(string &pOut, char *pText, int pLen);//utf_8转为gb2312

	void GB2312ToUTF_8(string& pOut,char *pText, int pLen); //gb2312 转utf_8

	string UrlGB2312(char * str);                           //urlgb2312编码

	string UrlUTF8(char * str);                             //urlutf8 编码

	string UrlUTF8Decode(string str);                  //urlutf8解码

	string UrlGB2312Decode(string str);                //urlgb2312解码

private:

	void Gb2312ToUnicode(WCHAR* pOut,char *gbBuffer);

	void UTF_8ToUnicode(WCHAR* pOut,char *pText);

	void UnicodeToUTF_8(char* pOut,WCHAR* pText);

	void UnicodeToGB2312(char* pOut,WCHAR uData);

	char  CharToInt(char ch);

	char StrToBin(char *str);

};

strCoding.cpp

//这是个类strCoding (strCoding.cpp文件)

//#include "StdAfx.h"

#include ".\strcoding.h"

strCoding::strCoding(void)

{

}

strCoding::~strCoding(void)

{

}

void strCoding::Gb2312ToUnicode(WCHAR* pOut,char *gbBuffer)

{

	::MultiByteToWideChar(CP_ACP,MB_PRECOMPOSED,gbBuffer,2,pOut,1);

	return;

}

void strCoding::UTF_8ToUnicode(WCHAR* pOut,char *pText)

{

	char* uchar = (char *)pOut;

	uchar[1] = ((pText[0] & 0x0F) << 4) + ((pText[1] >> 2) & 0x0F);

	uchar[0] = ((pText[1] & 0x03) << 6) + (pText[2] & 0x3F);

	return;

}

void strCoding::UnicodeToUTF_8(char* pOut,WCHAR* pText)

{

	// 注意 WCHAR高低字的顺序,低字节在前，高字节在后

	char* pchar = (char *)pText;

	pOut[0] = (0xE0 | ((pchar[1] & 0xF0) >> 4));

	pOut[1] = (0x80 | ((pchar[1] & 0x0F) << 2)) + ((pchar[0] & 0xC0) >> 6);

	pOut[2] = (0x80 | (pchar[0] & 0x3F));

	return;

}

void strCoding::UnicodeToGB2312(char* pOut,WCHAR uData)

{

	WideCharToMultiByte(CP_ACP,NULL,&uData,1,pOut,sizeof(WCHAR),NULL,NULL);

	return;

}

//做为解Url使用

char strCoding:: CharToInt(char ch){

	if(ch>='0' && ch<='9')return (char)(ch-'0');

	if(ch>='a' && ch<='f')return (char)(ch-'a'+10);

	if(ch>='A' && ch<='F')return (char)(ch-'A'+10);

	return -1;

}

char strCoding::StrToBin(char *str){

	char tempWord[2];

	char chn;

	tempWord[0] = CharToInt(str[0]);                         //make the B to 11 -- 00001011

	tempWord[1] = CharToInt(str[1]);                         //make the 0 to 0  -- 00000000

	chn = (tempWord[0] << 4) | tempWord[1];                //to change the BO to 10110000

	return chn;

}

//UTF_8 转gb2312

void strCoding::UTF_8ToGB2312(string &pOut, char *pText, int pLen)

{

	char buf[4];

	char* rst = new char[pLen + (pLen >> 2) + 2];

	memset(buf,0,4);

	memset(rst,0,pLen + (pLen >> 2) + 2);

	int i =0;

	int j = 0;

	while(i < pLen)

	{

		if(*(pText + i) >= 0)

		{

			rst[j++] = pText[i++];

		}

		else

		{

			WCHAR Wtemp;

			UTF_8ToUnicode(&Wtemp,pText + i);

			UnicodeToGB2312(buf,Wtemp);

			unsigned short int tmp = 0;

			tmp = rst[j] = buf[0];

			tmp = rst[j+1] = buf[1];

			tmp = rst[j+2] = buf[2];

			//newBuf[j] = Ctemp[0];

			//newBuf[j + 1] = Ctemp[1];

			i += 3;

			j += 2;

		}

	}

	rst[j]='\0';

	pOut = rst;

	delete []rst;

}

//GB2312 转为 UTF-8

void strCoding::GB2312ToUTF_8(string& pOut,char *pText, int pLen)

{

	char buf[4];

	memset(buf,0,4);

	pOut.clear();

	int i = 0;

	while(i < pLen)

	{

		//如果是英文直接复制就可以

		if( pText[i] >= 0)

		{

			char asciistr[2]={0};

			asciistr[0] = (pText[i++]);

			pOut.append(asciistr);

		}

		else

		{

			WCHAR pbuffer;

			Gb2312ToUnicode(&pbuffer,pText+i);

			UnicodeToUTF_8(buf,&pbuffer);

			pOut.append(buf);

			i += 2;

		}

	}

	return;

}

//把str编码为网页中的 GB2312 url encode ,英文不变，汉字双字节  如%3D%AE%88

string strCoding::UrlGB2312(char * str)

{

	string dd;

	size_t len = strlen(str);

	for (size_t i=0;i<len;i++)

	{

		if(isalnum((BYTE)str[i]))

		{

			char tempbuff[2];

			sprintf(tempbuff,"%c",str[i]);

			dd.append(tempbuff);

		}

		else if (isspace((BYTE)str[i]))

		{

			dd.append("+");

		}

		else

		{

			char tempbuff[4];

			sprintf(tempbuff,"%%%X%X",((BYTE*)str)[i] >>4,((BYTE*)str)[i] %16);

			dd.append(tempbuff);

		}

	}

	return dd;

}

//把str编码为网页中的 UTF-8 url encode ,英文不变，汉字三字节  如%3D%AE%88

string strCoding::UrlUTF8(char * str)

{

	string tt;

	string dd;

	GB2312ToUTF_8(tt,str,(int)strlen(str));

	size_t len=tt.length();

	for (size_t i=0;i<len;i++)

	{

		if(isalnum((BYTE)tt.at(i)))

		{

			char tempbuff[2]={0};

			sprintf(tempbuff,"%c",(BYTE)tt.at(i));

			dd.append(tempbuff);

		}

		else if (isspace((BYTE)tt.at(i)))

		{

			dd.append("+");

		}

		else

		{

			char tempbuff[4];

			sprintf(tempbuff,"%%%X%X",((BYTE)tt.at(i)) >>4,((BYTE)tt.at(i)) %16);

			dd.append(tempbuff);

		}

	}

	return dd;

}

//把url GB2312解码

string strCoding::UrlGB2312Decode(string str)

{

	string output="";

	char tmp[2];

	int i=0,idx=0,ndx,len=str.length();

	while(i<len){

		if(str[i]=='%'){

			tmp[0]=str[i+1];

			tmp[1]=str[i+2];

			output += StrToBin(tmp);

			i=i+3;

		}

		else if(str[i]=='+'){

			output+=' ';

			i++;

		}

		else{

			output+=str[i];

			i++;

		}

	}

	return output;

}

//把url utf8解码

string strCoding::UrlUTF8Decode(string str)

{

	string output="";

	string temp =UrlGB2312Decode(str);//

	UTF_8ToGB2312(output,(char *)temp.data(),strlen(temp.data()));

	return output;

}

main.cpp

//test

//#include "stdafx.h"

#include "strCoding.h"

using namespace std;

int main()

{ 

	strCoding cfm;

	string keyword="大家好,欢迎你";

	string Temp="";

	string Output="";

	//把关键字做url的utf8编码

	Temp= cfm.UrlUTF8((char *)keyword.data());

	cout<<Temp<<endl;

	//把url的utf8编码的结果解码

	Temp =cfm.UrlUTF8Decode(Temp);

	cout<<Temp<<endl;

	//把关键字做url的gb2312编码

	Temp =cfm.UrlGB2312((char *)keyword.data());

	cout<<Temp<<endl;

	//把url的gb2312编码的结果解码

	Temp =cfm.UrlGB2312Decode(Temp);

	cout<<Temp<<endl;

	//把关键字GB2312转UTF_8

	cfm.GB2312ToUTF_8(Output,(char *)keyword.data(),strlen(keyword.data()));

	cout<<Output<<endl;

	//把GB2312转UTF_8转为中文

	cfm.UTF_8ToGB2312(Temp,(char *)Output.data(),strlen(Output.data()));

	cout<<Temp<<endl;

	//system("pasue");

	getchar();

	return 0;

	//

}

字符集转换字符类型转换 utf-8 gb2312 url的更多相关文章

C语言-字符编码转换：UTF与GB2312
依赖库libiconv,libiconv库的交叉编译不做描述,网上很多 #include <stdio.h> #include <stdlib.h> #include < ...
打印GBK、GB2312字符集全字符
根据编码表填充数据就可以了~~~~(>_<)~~~~~\(≧▽≦)/~啦啦啦 #include <stdio.h> #include <stdlib.h> #inc ...
Java应用开发中的字符集与字符编码
事出有因在向HttpURLConnection的输出流写入内容时,因没有设置charset,导致接收方对数据的验签不一致. URL url = new URL(requestUrl); //打开连接 ...
[转]字符集、字符编码、XML中的中文编码
字符集.字符编码.XML中的中文编码作为程序员的你是不是对于ASCII .UNICODE.GB2321.UTF-7.UTF-8等等不时出现在你面前的这些有着奇怪意义的词感到很讨厌呢,是不是总觉得好象 ...
字符集、字符编码、XML中的中文编码
字符集.字符编码.XML中的中文编码作为程序员的你是不是对于ASCII .UNICODE.GB2321.UTF-7.UTF-8等等不时出现在你面前的这些有着奇怪意义的词感到很讨厌呢,是不是总觉得好象 ...
关于Unicode，字符集，字符编码，每个程序员都应该知道的事
关于Unicode,字符集,字符编码,每个程序员都应该知道的事作者:Jack47 李笑来的文章如何判断一个人是否聪明?中提到: 必要.清晰.且准确的概念,是一切思考的基石.所谓思考,很大程度上,就是 ...
mysql已有数据字符集转换
下面模拟把latin1字符集的数据转换为utf8字符集一.创建测试表和测试数据: 1.修改会话级别的连接字符集 mysql > set names latin1; 查看一下: 2.创建测试表: ...
刨根究底字符编码之十——Unicode字符集的字符编码方式CEF
Unicode字符集的字符编码方式CEF 一.字符编码方式CEF的选择 1. 由于Unicode字符集非常大,有些字符的编号(码点值)需要两个或两个以上字节来表示,而要对这样的编号进行编码,也必须使用 ...

随机推荐

winform降低功耗总结
这里整理了一些网上关于Winform如何降低系统内存占用的资料,供参考: 1.使用性能测试工具dotTrace 3.0,它能够计算出你程序中那些代码占用内存较多2.强制垃圾回收3.多dispose,c ...
jQuery实现的向下推送图文信息滚动效果
HTML 我们以新浪微博信息滚动为背景,html中包含了多条微博图文信息,结构如下: <div id="con"> <ul> <li> < ...
SGU 178.Chain
Solution: 一开始做的时候,以为可以将一条长度为n的链分成和n为的任意长度的3部分.结果第二组就Wa了后来参考了题解,发现是将长度为n的链分成长度为1,x,n-1-x的三条链.再看看题目,不 ...
MVC埰坑日记文件权限
public static void DownLoadFile(string FileFullPath) { if (!string.IsNullOrEmpty(FileFullPath) & ...
cocod2d-x 之 CCTMXTiledMap & CCTMXLayer
cocos2dx框架自带的地图CCTMXTiledMap,继承自CCNode.CCTMXTiledMap的坐标系的原点位于左上角,以一个瓦片为单位,换句话说,左上角第一块瓦片的坐标为(0,0),而紧挨 ...
html embed用法
(一).基本语法: embed src=url 说明:embed可以用来插入各种多媒体,格式可以是 Midi.Wav.AIFF.AU.MP3等等, Netscape及新版的IE 都支持.u ...
xgboost中如何自定义metric（python中）
正好在参加携程的比赛,用的xgboost的算法,但携程比赛的测评函数比较奇怪,不是传统的那些,而是取precision≥0.97的情况下,recall的最大值.那无疑这个测评函数是要自己写的(官方没给 ...
OC面向对象的三大特征
OC面向对象的三大特征 1.OC面向对象的三大特封装 1)封装:完整的说是成员变量的封装. 2)在成语方法里面的成员变量最好不要使用@public这样会直接暴露在外面被别人随随便便修改,封装的方法还可 ...
终端上设置git
http://blog.163.com/xianfuying@126/blog/static/21960005201181482518631/ 在-/.ssh的位置vi id_rsa.pub 拷贝的时 ...
Unity3d webplayer发布的问题和100%自适应浏览器
Unity3d发布的问题发布的时候,遇到无法写入Resources.assets,原来是我的项目中有多个Resources文件夹,以后最好是不要有重复的文件夹和一样名字的资源! 还有就是发布的web ...

字符集转换 字符类型转换 utf-8 gb2312 url

字符集转换 字符类型转换 utf-8 gb2312 url的更多相关文章

随机推荐

热门专题

字符集转换字符类型转换 utf-8 gb2312 url

字符集转换字符类型转换 utf-8 gb2312 url的更多相关文章