方法1:base_encode64

这种方法是可以,但是旧数据没有经过encode操作,取数据的时候如果统一进行decode的话,旧数据会丢失的。
  • 1

方法2:urlencode

这个似乎可以,对没有经过encode的数据进行decode也不会有影响,而且多次decode似乎也不会有影响。你们说这个方法有缺陷吗?

=======================
一个发现,微信获取用户基本信息的时候,笑哭那个表情print_r出的是\ud83d\ude02,而我存储的时候,报错说这个 \xF0\x9F\x98\x82 值不能存储,请问这是怎么回事,自动转码了,转成的这是什么?是微信转码过了吗? =======================

方法3:采用了下面采纳的那个方法,因为我觉得它有下面几个优点:

1、那个方法只转换表情,不会转换中文,所以数据还是直接可读的
数据库中存储起来是这样的,如何转义emoji表情,让它可以存入utf8的数据库
后面的\ud83d\udca5可以随意复制粘贴,而显示出来是这样的, 如何转义emoji表情,让它可以存入utf8的数据库 2、不会把表情转换为其它标准,只有一个简单的,固定的转换算法,也就是说不需要一个表情库来对照着转换,所以以后其它人要使用这个数据的时候,也很容易知道每个表情是对应的哪个。就算苹果大爷又增加了表情,也不需要做什么额外的修改。 3、可以无限decode输出的都是正确的内容。因为有的时候可能需要在一次请求中的两个地方做decode,其它decode多次会把正确的数据改成其它数据,这个不会。
缺点:
1、看了下面的代码就知道,这个是强制修改字符编码中,指定区间内的编码,也就说有可能误杀,也有可能有超出这个区间的emoji没杀到。不过仅仅是在字符前加反斜杠,即使误杀了,发现之后也很容易改回来。
数据库中发现有这样的 ,是漏杀了,但是不知道为什么,这个可以直接存数据库。 /**
把用户输入的文本转义(主要针对特殊符号和emoji表情)
*/
function userTextEncode($str){
if(!is_string($str))return $str;
if(!$str || $str=='undefined')return ''; $text = json_encode($str); //暴露出unicode
$text = preg_replace_callback("/(\\\u[ed][0-9a-f]{3})/i",function($str){
return addslashes($str[0]);
},$text); //将emoji的unicode留下,其他不动,这里的正则比原答案增加了d,因为我发现我很多emoji实际上是\ud开头的,反而暂时没发现有\ue开头。
return json_decode($text);
}
/**
解码上面的转义
*/
function userTextDecode($str){
$text = json_encode($str); //暴露出unicode
$text = preg_replace_callback('/\\\\\\\\/i',function($str){
return '\\';
},$text); //将两条斜杠变成一条,其他不动
return json_decode($text);
} //处理名字的emoji符号
$tmpStr = json_encode($text); //暴露出unicode
$tmpStr = preg_replace("#(\\\ue[0-9a-f]{3})#ie","addslashes('\\1')",$tmpStr); //将emoji的unicode留下,其他不动
$text = json_decode($tmpStr);
return $text;

方法4: 一个标准的解决方案:

1、mysql的版本必须为v5.5.3或更高
2、把数据库的编码改成utf8mb4 -- UTF-8 Unicode
3、然后需要存储emoji表情的字段选择utf8mb4_general_ci
4、数据库连接也需要改为utf8mb4 设置完成后,应该可以看到如下类似字符集设置结果。那么可以直接的存入数据库,无需做任何额外的事情了。 mysql> SHOW VARIABLES WHERE Variable_name LIKE 'character\_set\_%' OR Variable_name LIKE 'collation%';
+--------------------------+--------------------+
| Variable_name | Value |
+--------------------------+--------------------+
| character_set_client | utf8mb4 |
| character_set_connection | utf8mb4 |
| character_set_database | utf8mb4 |
| character_set_filesystem | binary |
| character_set_results | utf8mb4 |
| character_set_server | utf8mb4 |
| character_set_system | utf8 |
| collation_connection | utf8mb4_unicode_ci |
| collation_database | utf8mb4_unicode_ci |
| collation_server | utf8mb4_unicode_ci |
+--------------------------+--------------------+ 我在做微信公众平台开发时遇到过这个问题,微信用户的昵称可以包含表情(坑爹- -!)。于是我就将整个昵称转换成HEX字符串存在MySQL中,目前用户1W+,系统稳定,题主可以参考一下此方案。 MySQL支持hex() and unhex()函数。Java可以使用org.apache.commons.codec.binary.Hex工具类。其他语言也有相应的方法。 ![这里写图片描述](http://img.blog.csdn.net/20160612155302911) 试试微博或qq里面的那种方式?用简单的编码来映射,比如微笑可以用 [wx] 或 /wx 。不过表情多了之后4个字符不怎么够用。。。 urldecode
我看了一下 decode 的源码,应该是不会出现问题。 只要没有 % 解码后肯定还是原来的字符(串),有 % 会出现两种情况,一种是解码成功,这个时候肯定就不是原来的字符串了,一种是解码失败,抛出异常(其实这个异常可以作为是否 encode的标准)。 解码还算是比较严格吧,作为用户名的情况下 出现 % 还解码成功的概率比较小吧,对于这部分你可以手动改数据库,应该不会有很多。 你试试这个函数,之前弄微信自定义菜单的时候,也接触过Emoji表情,当时看到用的这个函数把Emoji表情的编码给转换了。
function utf8_bytes($cp) {
if ($cp > 0x10000){
# 4 bytes
return chr(0xF0 | (($cp & 0x1C0000) >> 18)).
chr(0x80 | (($cp & 0x3F000) >> 12)).
chr(0x80 | (($cp & 0xFC0) >> 6)).
chr(0x80 | ($cp & 0x3F));
}else if ($cp > 0x800){
# 3 bytes
return chr(0xE0 | (($cp & 0xF000) >> 12)).
chr(0x80 | (($cp & 0xFC0) >> 6)).
chr(0x80 | ($cp & 0x3F));
}else if ($cp > 0x80){
# 2 bytes
return chr(0xC0 | (($cp & 0x7C0) >> 6)).
chr(0x80 | ($cp & 0x3F));
}else{
# 1 byte
return chr($cp);
}
}
我这个刚解决的这个问题(后端是java实现的,数据库Mysql),供参考。
1、修改存储emoji字段编码,例如放在username字段中: ALTER TABLE user CHANGE username username VARCHAR(128) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci default null;
2、java在执行数据库插入、更新操作前,要先执行 sql语句"set names utf8mb4" 语句。 使用BOLO类型 将数据库编码改为 utf8mb4 https://github.com/iamcal/php-emoji
我是用这个处理的~ http://www.emoji-cheat-sheet.com/ 有一种编码叫 utfmb4,支持 4 位长度的 utf8 编码 喏,你的 MySQL 版本必须为 5.5 以上的 不用转,直接数据库转成utf8mb4, 我以前就是这么干的 不用更改整个数据库的把。。。create xxx() charset=utf8mb4 单表 utf8mb4就行了把 因为我的项目中需要对字数有限制的需求,涉及到逐字计数,在这基础上我增加了emoji的功能完美实现。你需要代码的话请再告诉我,我提供给你。

方法5 干掉emoji表情

emoji表情是个麻烦的东西,即使你能存储,也不一定能完美显示。在iOS以外的平台上,例如PC或者android。如果你需要显示emoji,就得准备一大堆emoji图片并使用第三方前端类库才行。即便如此,还是可能因为emoji图片不够全而出现无法显示的情况 
在大多数业务场景下,emoji也不是非要不可的。我们可以适当地考虑干掉它,节约各种成本

经过一番苦苦的google,终于找到靠谱能用的代码:

// 过滤掉emoji表情 
function filterEmoji(str)  
{str)  {str = preg_replace_callback( 
‘/./u’, 
function (array match)returnstrlen($match[0])>=4?′′:$match[0];,match)returnstrlen($match[0])>=4?″:$match[0];,str);

 return $str;

}

php + mysql 存入表情 【如何转义emoji表情,让它可以存入utf8的数据库】的更多相关文章

  1. iOS 获取emoji表情和拦截emoji表情

      1 2 //将数字转为 #define EMOJI_CODE_TO_SYMBOL(x) ((((0x808080F0 | (x & 0x3F000) >> 4) | (x &a ...

  2. PHP如何处理emoji表情存入utf8的数据库

    一般Mysql表设计时,都是用UTF8字符集的.把带有emoji的昵称字段往里面insert一下就没了,整个字段变成了空字符串.这是怎么回事呢? 原来是因为Mysql的utf8字符集是3字节的,而em ...

  3. 转:让MySQL支持emoji表情

    转自:http://www.cnblogs.com/suifu/p/5848269.html 公司有新要求,ios客户端要上线评论中可以使用emoji表情的功能,在mysql 5.5 之前,UTF-8 ...

  4. emoji表情存储到数据库的方法

    方案1:修改数据库编码 为什么我们设置表的的字符类型为utf8却不能存放emoji呢?原来utf8可能是2或3或4个字节,而mysql的utf8是3个字节,存放一个emoji是需要4个字节的,自然不够 ...

  5. 【Java】如何检测、替换4个字节的utf-8编码(此范围编码包含emoji表情)

    > 参考的优秀文章 1.十分钟搞清字符集和字符编码 2.Java中byte与16进制字符串的互相转换 3.[异常处理]Incorrect string value: '\xF0\x90\x8D\ ...

  6. PHP开发丨3个简单的方法处理emoji表情

    一般Mysql表设计时,都是用UTF8字符集的.把带有emoji的昵称字段往里面insert一下就没了,整个字段变成了空字符串.这是怎么回事呢?原来是因为Mysql的utf8字符集是3字节的,而emo ...

  7. mysql/Java服务端对emoji的支持

    更改好后的字符集: 乱码 推荐大家看 深入MySQL字符集设置 ,区分检查client端.server端的编码:最简单暴力的方式,是在所有的环节都显式明确的指定相同的编码. 比如使用python的My ...

  8. mysql/Java服务端对emoji的支持 专题

    关于utf8不支持emoji是因为emoji是用4个字节存储的字符,而mysql的utf8只能存储1-3个字节的字符.那就存不了呗 需要更改的地方:(1)Mysql服务器client,mysql,my ...

  9. emoji表情字符串 mysql 普通 utf8 格式无法存入

    处理方法: 1.在可以忽略emoji表情的情况下,可以选择将emoji表情字符过滤掉,这样不用动mysql 表结构    过滤Java代码参考如下: public static String filt ...

随机推荐

  1. js打印页面指定区域,并去掉页眉上的时间和请求路径

    需要通过js打印指定页面的内容 <style media=print type="text/css"> .noprint{visibility:hidden} < ...

  2. 【机器学习_8】pandas

    背景 关于同一个话题,不同作者也有不同行文结构.但要真正理解并会用,在我的经验里,是必须要自己重新组织的. 本文是基于以往看过的资料,从自身数据处理应用的角度出发,重新组织pandas应用结构,希望能 ...

  3. 如何使用cloudflare的CDN加速网站隐藏网站IP

    原文:http://www.safecdn.cn/contact-zh/2018/12/cloudflare-cdn/1146.html 高防CDN:https://www.safeidc.cn/cd ...

  4. ECharts教程

    ECharts 特性 兼容当前绝大部分浏览器(IE8/9/10/11,Chrome,Firefox,Safari等) 底层依赖轻量级的矢量图形库 ZRender 丰富的可视化类型 常规的折线图.柱状图 ...

  5. Xilinx Zynq ZC-702 开发(02)—— 软件程序调试方法

    1.简介 本教程将指导您使用 SDK 调试应用程序项目,本教程中描述的调试步骤是非常基础的:有关更多信息,请参考 SDK 帮助中的调试任务. 在使用本教程之前,您应该已经创建了一个应用程序项目,并在工 ...

  6. mysql导入太慢解决方法

    半调子数据科学家又要折腾数据,拿到数据一看,3.6G的zip文件,解压看看,卧槽12个G的sql文件.好吧,又要折腾sql数据了.第一件事,肯定是搭一个数据库,导入数据咯. 折腾过sql导入的亲们都知 ...

  7. Longest Palindrome 最长回文串问题

    1.题目 Given a string s, find the longest palindromic substring in s. You may assume that the maximum ...

  8. Alpha冲刺

    第一天 日期:2018/6/16 1.今日完成任务情况以及遇到的问题 张天旭:根据系统的需求,完成数据库的设计 周甜甜:完成系统后台登录界面的设计及登录功能的实现 李蕾:完成系统后台首页的设计 张海鑫 ...

  9. Python txt文件读取写入字典的方法(json、eval)

    link:https://blog.csdn.net/li532331251/article/details/78203438 一.使用json转换方法 1.字典写入txt import json d ...

  10. myeclise2017安装包及破解文件

    亲测可用! myeclipse2017安装包 链接:https://pan.baidu.com/s/13R1wk7mI9ECjEByanIbHDA 提取码:vaeb myeclipse2017破解包 ...