过滤4字节及以上的字符c++实现

这个是根据php的一个版本改的，用来处理utf-8编码的多字节字符，比如中文，俄文等等。

#include <iostream>

#include <string>

int strip4ByteChars(const std::string str, std::string &ot);

unsigned char ord(int ch);

int main() {

    std::string str = "Esto es una prueba lalalala así que la llenaré de ÑÑÑÑÑÑ así y también de ÇÇÇÇÇÇÇÇ y algunos acentos en francés del tipo télévision, évenement, ouvrière, même, hôpital, juïf o âge.";

//    std::string str = "abcdefg АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩъыьЭЮЯ 你好世界！";

    std::string ret;

    if( strip4ByteChars(str, ret) ==  ) {

        std::cout << str << std::endl << std::endl;

        std::cout << ret << std::endl;

    } else {

        std::cout << "error!" << std::endl;

    }

    return ;

}

/**

 * 处理特殊字符串

 * @param string $str

 */

int strip4ByteChars(const std::string str, std::string &ot) {

    int len = str.length();

    unsigned char v,v2,v3;

    for (int i = ; i < len; ) {

        v = ord(str[i]);

        if (v == 0x09 || v == 0x0A || (v < 0x80 && v >= 0x20)) { // 单字节

            ot += v;

            i += ;

        } else if (v >= 0xC2 && v <= 0xDF) { // 双字节

            v2 = ord(str[i + ]);

            if (v2 >=  && v2 <= 0xBF) {

                ot += v;

                ot += v2;

                i += ;

            } else {

                ++i;

            }

        } else if (v == 0xE0) { // 三字节

            v2 = ord(str[i + ]);

            v3 = ord(str[i + ]);

            if (v2 >= 0xA0 && v2 <= 0xBF && v3 >= 0x80 && v3 <= 0xBF) {

                ot += v;

                ot += v2;

                ot += v3;

                i += ;

            } else {

                ++i;

            }

        } else if (v == 0xED) { // 三字节

            v2 = ord(str[i + ]);

            v3 = ord(str[i + ]);

            if (v2 >= 0x80 && v2 <= 0x9F && v3 >= 0x80 && v3 <= 0xBF) {

                ot += v;

                ot += v2;

                ot += v3;

                i += ;

            } else {

                i ++;

            }

        } else if (v >= 0xE1 && v <= 0xEF && v != 0xED) { // 三字节

            v2 = ord(str[i + ]);

            v3 = ord(str[i + ]);

            if (v2 >= 0x80 && v2 <= 0xBF && v3 >= 0x80 && v3 <= 0xBF) {

                ot += v;

                ot += v2;

                ot += v3;

                i += ;

            } else {

                i ++;

            }

        } else if (v >= 0xF1 && v <= 0xF4) { // 四字节

            i += ;

        } else { // 四字节以上

            i ++;

        }

    }

    return ;

}

// 字符转ascii码，返回值为无符号int

unsigned char ord(int ch) {

    unsigned char ret;

    ret = ch & 0xff;

    return ret;

}

多字节字符的二进制表示如下：

Unicode符号范围      | UTF-8编码方式

(十六进制)           | （二进制）

--------------------+---------------------------------------------

0000 0000-0000 007F | 0xxxxxxx

0000 0080-0000 07FF | 110xxxxx 10xxxxxx

0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx

0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

以双字节字符为例110xxxxx 10xxxxxx

使用下标访问时每次访问一个字节，这时候双字节字符会被分开访问，如上的双字节将会分为110xxxxx和10xxxxxx，使用int保存时，单字节会自动补齐为当前系统中int需要的字节数，补齐规则跟系统有关，带符号数通常是按照符号位的值补齐，由于这两个字节的最高位都是1，以int为4字节为例，这两个字节在实际访问时就会变成：

11111111 11111111 11111111 110xxxxx 和 11111111 11111111 11111111 10xxxxxx

这样如果直接使用这两个值就会得到一个负数，而且远远超出了ascii码的表示范围，而我们真正需要的只是这两个int的地8位，所以使用

ret = ch & 0xff;

取出低8位，又因为ascii码没有负数，所以应该用unsigned char表示。

参考文件：http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

过滤4字节及以上的字符c++实现的更多相关文章

Java bit、byte、位、字节、汉字、字符
package com.suypower.chengyu.test; public class ByteTest { /** * byte 8 bits -128 - + 127 * 1 bit = ...
Java的IO操作中有面向字节(Byte)和面向字符(Character)两种方式
解析:Java的IO操作中有面向字节(Byte)和面向字符(Character)两种方式.面向字节的操作为以8位为单位对二进制的数据进行操作,对数据不进行转换,这些类都是InputStream和Out ...
[19/03/30-星期六] IO技术_四大抽象类_ 字节流( 字节输入流 InputStream 、字符输出流 OutputStream )_(含字节文件缓冲流)
一.概念及分类 InputStream(输入流)/OutputStream(输出流)是所有字节输入输出流的父类 [注]输入流和输出流的是按程序运行所在的内存的角度划分的字节流操作的数据单元是8的字节 ...
java: InputStreamReader将字节的输入流变成字符的输入流，OutputStreamWriter将字符的输出流变成字节的输出流
InputStreamReader:将字节的输入流变成字符的输入流, OutputStreamWriter:将字符的输出流变成字节的输出流 //将缓冲区的内容读取,可以一次读取 //可以接收键盘的输入 ...
Java字节缓冲流和字符缓冲流学习
1.字节缓冲流首先要明确一个概念:对文件或其他目标频繁的读写操作,效率低,性能差. 使用缓冲流的好处是,能够高效的读写信息,原理是将数据先缓冲起来,然后一起写入或者读取出来. BufferedInp ...
JAVA笔记11__File类/File类作业/字节输出流、输入流/字符输出流、输入流/文件复制/转换流
/** * File类:文件的创建.删除.重命名.得到路径.创建时间等,是唯一与文件本身有关的操作类 */ public class Main { public static void main(St ...
过滤3个字节以上的utf-8字符
/** * 过滤掉超过3个字节的UTF8字符 * @param text * @return * @throws UnsupportedEncodingException */ public stat ...
python 过滤四字节字符表情字符
项目中有时需要过滤掉四字节以上的字符(表情),比如mysql数据库5.5.3以下的版本text字段不支持四字节以上字符于是就需要过滤掉再入库,python中的方法为: try: # pyth ...
java中过滤四字节字符
private static final String FOUR_BYTE_FILTER = "[\\ud800\\udc00-\\udbff\\udfff\\ud800-\\udfff]& ...

随机推荐

linux bash Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数
在linux下配置shell参数说明前面已经讲到,变量名只能包含数字.字母和下划线,因为某些包含其他字符的变量有特殊含义,这样的变量被称为特殊变量. 例如,$ 表示当前Shell进程的ID,即pid ...
Linux下监视NVIDIA的GPU使用情况（转）
在使用TensorFlow跑深度学习的时候,经常出现显存不足的情况,所以我们希望能够随时查看GPU时使用率.如果你是Nvidia的GPU,那么在命令行下,只需要一行命令就可以实现. 1. 显示当前GP ...
Design Pattern Bridge 桥设计模式
桥设计模式事实上就是一个简单的has a relationship.就是一个类拥有还有一个类,并使用还有一个类实现须要的功能. 比方遥控器和电视之间能够使用桥设计模式达到能够使用同一个遥控器控制多台电 ...
heap与stack的差
本文内容来源于<程序猿面试宝典>第三版. 在进行C/C++编程时.常常将操作的内存分下面几个类别: 栈区(stack):由编译器自己主动分配和释放,存放函数的參数值.局部变量的值等. 其操 ...
Python之zip
# -*- coding: utf-8 -*- #python 27 #xiaodeng #Python之zip #http://python.jobbole.com/82590/ #1)zip语法格 ...
自定义AppServer
TelnetSever.cs public class TelnetServer : AppServer<TelnetSession> { protected override bool ...
用css3做一个求婚小动画
概述本案例主要是运用到了css3的animation.keyframes.transform等属性,熟悉了,就可以做更多的其他动画效果,这几个属性功能非常强大. 详细代码下载:http://www ...
PHP 与 UTF-8
没有一行式解决方案.小心.注意细节,以及一致性. PHP 中的 UTF-8 糟透了.原谅我的用词. 目前 PHP 在低层次上还不支持 Unicode.有几种方式可以确保 UTF-8 字符串能够被正确处 ...
ASP.NET#使用母版时，如果要使用js中的getElementById()方法取得某个内容页的元素时要注意的问题
当使用母版,要使用js中的getElementById()方法取得某个内容页的元素时,所选取的id并不是母版中内容页的id,而是在设计内容页时设定的id例子:母版页: ...... <head ...
Java数据库表自动转化为PO对象
本程序简单实现了数据库内省,生成PO对象. 数据库内省有如下两种实现方式: 通过mysql元表通过desc table,show tables等命令 import java.io.IOExcepti ...

过滤4字节及以上的字符c++实现

过滤4字节及以上的字符c++实现的更多相关文章

随机推荐

热门专题